公共业务模块下层:复用
共享、连接、服务(双中台:业务中天、数据中台)
one data
数据加工和深度分析(AI)
云原生
发展
数据湖阶段 –> 数据工厂阶段 –> 数据中台阶段
数据仓库
恩门模式
整体架构
金博尔模式
维度和事实
数据湖
数据规模和数据类型的限制
- 完全分布式
- 弱化数据格式 (数据模型和数据存储分离)
- 原始数据存储
数据工厂
数据集成 –> 数据开发 –> 数据测试 –> 发布上线 –> 任务运维
计算、资源调度(yarn、K8s)和存储(HDFS、Kudu、HBase)
离线数据清洗加工(Hive、Spark)
Flink 解决实时计算
Impala 解决交互式查询
HDFS 存全量数据、主要存维度表
Kudu 实时数仓
问题:数据无法共享
数据中台
底层架构:数据湖
建模方式:维度建模
数据服务化
“数据治理、数据服务、数据安全、接口治理、数据应用、系统治理”
主数据 + 多径合一 + 数据血缘 + 数据地图 + 数据安全
+数据应用
BI报表
数据产品
自动取数
数据
和特征
决定机器学习的上限算法
和模型
只是无限逼近上限
未来
实时数据平台
云上数据平台
智能元数据管理 + 增强分析
自动化代码构建
数据产品
流批统一、可视化建模和SQL建模、上云
DWD、DWS、DM、ADS