首页 > 编程札记 > 编程

非专业者“谈”数仓建设

阅读：评论：0

非专业者“谈”数仓建设

数据仓库的起因

数据散落在各个业务部门，单一业务使用起来方便，但跨业务、跨部门应用就会存在诸多问题：

① 数据来源多样化，数据管理非常分散；

② 业务数据缺乏统一标准，难以整合应用；

③ 业务数据口径不一，无法保证准确度；

④ 各自维护数据一亩三分地，缺乏数据管控体系，数据质量难以保证。

数据仓库的定义

面向分析主题的、集合的、相对稳定的、反映历史变化的数据集合，主要支持管理人员分析决策。

数据仓库的功能

数据整合

与数仓“集合的”特性对应，主要为了解决各系统的异构问题（数据的表示协议），比如：

JSON（最常见）
xml
cvs
dsv
binlog

为了解决上面提到的差异性，数仓需要把从各个系统中的数据转换成相同的格式，例如 csv、orc 等等。

数据处理转换 - ETL

与数仓“相对稳定的”特性对应，如果数据整合 - 将各国外语翻译为中文，那么统一口径 - 统一讲普通话。

诸如问题1：播放开始中的歌曲类型：1、2；下载开始中的播放类型：音频、视频。

诸如问题2：数据中的缺失值处理、无效数据处理

针对这种问题，全面梳理核心业务的核心字段，制定统一的数据标准，在数仓建设过程中将此类问题规整。

数仓建设 - 提高分析效率

划分业务的边界

业务流程、参与角色、操作场景，需要数据解决什么问题，这就对应着要监控哪些数据。

比如，快递业务流程：下单--派单--收件--网点接驳--运输--片区中转场--中转运输--片区中转场--网点接驳--派件--签收，参与角色：客户、调度员、小哥、司机、运作员、分拣员

业务主体之间的关系

业务主体之间的关系，就是小说人物之间的关系

数仓的维度

维度好比小说人物的属性：技能、长相、性格等

数仓的指标

指标好比小说人物对整个小说的输出量化

数据仓数据的更新策略

更新频率：实时、小时、日、周、月、年.....

数仓的留存问题

数据仓库的组成

多种多样的数据源：Oracle、MySQL、SqlServer
数据抽取、转换、导入(ETL工具)

Talend：有 GUI 图形界面但是以 Eclipse 的插件方式提供。
Kettle：有非常容易使用的 GUI，出现问题可以到社区咨询。
Informatica：有非常容易使用的 GUI，但是要专门的训练。
Inaplex Inaport：没有GUI

操作型的数据和分析型的数据

操作型数据：时间范围短、细节、当前状态；

分析型数据：时间范围长、细节&汇总

主题模型
数据集市
报表、查询、EIS工具
OLAP分析工具

presto：facebook开源的一个java写的分布式数据查询框架，原生集成了Hive、Hbase和关系型数据库，Presto背后所使用的执行模式与Hive有根本的不同，它没有使用MapReduce，大部分场景下比hive快一个数量级，其中的关键是所有的处理都在内存中完成。
Druid：是一个实时处理时序数据的Olap数据库，因为它的索引首先按照时间分片，查询的时候也是按照时间线去路由索引。
spark SQL：基于spark平台上的一个olap框架，本质上也是基于DAG的MPP，基本思路是增加机器来并行计算，从而提高查询速度。
kylin：核心是Cube，cube是一种预计算技术，基本思路是预先对数据作多维索引，查询时只扫描索引而不访问原始数据从而提速。

数据挖掘工具

数据治理

此版块另开专题讲

本文发布于:2024-01-28 01:23:40，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/17063762283814.html

上一篇：风险管理五大步骤，搞定80%以上的项目风险

下一篇：区块链技术应用落地区块链征信

标签：专业

留言与评论（共有 0 条评论）