公共业务模块下层:复用
共享、连接、服务(双中台:业务中天、数据中台)
one data
数据加工和深度分析(AI)
云原生

发展

数据湖阶段 –> 数据工厂阶段 –> 数据中台阶段

数据仓库

恩门模式

整体架构

金博尔模式

维度和事实

数据湖

数据规模和数据类型的限制

  1. 完全分布式
  2. 弱化数据格式 (数据模型和数据存储分离)
  3. 原始数据存储

数据工厂

数据集成 –> 数据开发 –> 数据测试 –> 发布上线 –> 任务运维

计算、资源调度(yarn、K8s)和存储(HDFS、Kudu、HBase)
离线数据清洗加工(Hive、Spark)
Flink 解决实时计算
Impala 解决交互式查询
HDFS 存全量数据、主要存维度表
Kudu 实时数仓

问题:数据无法共享

数据中台

底层架构:数据湖
建模方式:维度建模
数据服务化

“数据治理、数据服务、数据安全、接口治理、数据应用、系统治理”

主数据 + 多径合一 + 数据血缘 + 数据地图 + 数据安全

+数据应用

BI报表
数据产品
自动取数

数据特征决定机器学习的上限
算法模型只是无限逼近上限

未来

实时数据平台
云上数据平台
智能元数据管理 + 增强分析
自动化代码构建
数据产品

流批统一、可视化建模和SQL建模、上云

DWD、DWS、DM、ADS

常见问题