核心概念
维度
单级维、层级维、变化维
度量
度量是反映企业运行情况或状态的一些数值指标,是业务量化的表示,可以用来监测业务的成效,比如销售额、利润来反应企业业绩
事实表
事务粒度事实表、周期快照粒度事实表、累积快照粒度事实表
原则:一致性维度和一致性事实
分层
贴源层,就是将所有涉及业务系统的数据抽取到这一层集中存放,同时也会保留历史数据,这一层基本保留了与源系统一样的结构和数据。
整合层,会保留最细颗粒的所有历史数据,它面向主题、规范化建模,站在全局的视角上规划主题、整合业务模型,在数据模型维度上完成重大的转变。
集市层,面向某个业务主题的多维模型集合。通过预计算、预连接、维度规范化等方式进一步将业务系统的范式模型转变成面向主题的多维模型。
汇总层,它应技术或业务需要而建,直面需求,方便展现,同时提高数据的存储性能。
建模工具:Erwin、PowerDesigner、EsDataFactory
OLTP 数据系统,主要技术难点
分层、分片、分布式事务
OLAP 主要技术:
列存储、降维、切分
构成
基础:调度系统,数据管理、数据监控
数据流:数据采集—数据传输(同步、转换)—数据研发(ETL)
数据采集–数据传输–实时计算(流计算)
辅助功能:元数据管理 权限 血缘 成本管理
规范:数据仓库规则,表名规则,字段规范
应用:数据产品,分析、算法,ABtest,用户画像,数据分析,数据挖掘,搜索