大数据 [ 日升于东 ]

Volume：数据量规模随时间增长
Variety：数据格式的多样化
Velocity：数据即时处理的速度
Validity：数据的合法性

Value：低价值密度

爆发原因：大量的数据和应用场景
Hadoop 分布式技术的出现，低成本的存储，计算资源

数据整理、数据仓库、初级应用（统计、报表等）、智能应用（数据挖掘、智能驾驶、物联网）

信息过载、精准营销、各种预测、各种优化、系统智能化

海量数据采集、存储和计算分析

响应时间：系统对请求作出响应的时间，通常统计的是平均响应时间、最大响应时间

吞吐量：系统单位时间内处理请求的数量

系统可以同时承载的正常使用系统功能的用户数，通常统计的是注册用户数、在线用户数、同时发请求用户数

每秒查询率是对一个特定查询服务器在规定时间内所处理流量多少的和衡量标准
fetches/sec：每秒响应请求数，即最大吞吐能力

数据来源、数据传输和存储

结构化数据：Sqoop
半结构化数据：Flume
非结构化数据：Kafka

数据存储：HDFS、HBase

资源管理

资源调度：YARN

数据计算

离线计算：MapReduce
内存计算：Spark Core
实时计算：Spark Streaming、Flink

> 任务调度

Oozie、Azkaban

业务模型层

数据平台配置和调度：Zookeeper（动物管理员）