序
数据展现获得成功,必须建立在简单性的基础上,以业务用户的需求来驱动
维度建模是建立集成化的 DW/BI 系统的主导结构
使用维度建模的一致性维度
和一致性事实
,可以增量式
的建立具有可实践性
、可预测
、分布式
的复杂
DW/BI 系统框架
数据获取 VS 数据分析
信息的作用:操作型记录的保存、分析型决策的制定
操作型系统通常不必维护历史数据,只需修改数据以反映最新状态
分析型系统要求保存历史环境,以精确的评估组织在一段时间内的性能
DW/BI 基本需求
能够方便的存取信息
数据需要直观性
数据结构与标识必须符合业务用户的思维过程和词汇
业务用户能以各种形式分割和合并分析数据
访问数据的工具和应用要简单易用
能够快速查询出结果以一致的形式展示信息
数据必须可信
清洗不同来源的数据,确保质量
公告标识和定义能够在不同数据源公用必须能够适应变化
用户需求、业务环境、数据及技术
必须能够及时展现信息
DW/BI 系统主要用于操作型决策,原始数据需要短时间内转换成可用信息
成为保护信息财富的安全堡垒
有效控制组织中机密信息的访问
成为提高决策制定能力的权威和可信的基础
DW/BI 系统重要的输出是基于分析证据所产生的决策
系统成功的标志是业务群体的接受
维度建模
解决问题:
以商业用户可以理解的方式发布数据
提高高效的查询性能
用于度量的事实表
维度模型中的事实表存储组织机构业务过程中事件的性能度量结果,同一个业务过程的底层度量结果尽可能存储于一个维度模型
事实可以通过连续描述,有助于区分到底是事实还是维度属性的问题
从行的数量 -> 事实表趋向于变长
从列的数量 -> 事实表趋向于变短
事实表粒度划分:事务
、周期性快照、累积快照
事实表具有N个外键与维度表的主键关联,主键是组合键
用于描述环境的维度表
维度表是事实表不可或缺的组成部分
维度表单一主键
维度属性可作为查询约束、分组、报表标识的主要来源
尽量减少在维度表中使用代码,将代码替换成详细的文本属性
数据仓库的好坏直接取决于维度属性的设置
DW/BI 环境的分析能力取决于维度属性的质量和深度
+如何区分数值数据元素是事实属性还是维度属性
包含多个值并作为计算的参与者的度量 -> 事实
对具体值得描述,是一个常量、某一约束和行标识的参与者 -> 维度属性
DW/BI 环境划分
操作型源系统、ETL系统(获取,转换,加载)、数据展现、商业智能应用
ETL主要任务:在交付过程中划分维度和事实
商业智能决策的展现区
展现区:
数据应以维度模型来展现,星型模式、OLAP多维数据库
包含详细的原子数据
围绕业务过程度量事件来构建
使用公共的、一致性的维度建立维度结构
常见 DW/BI 架构
独立数据集市架构
辐射状企业信息工厂架构 INmon