大数据特点
Volume:数据量规模随时间增长
Variety:数据格式的多样化
Velocity:数据即时处理的速度
Validity:数据的合法性
Value:低价值密度
爆发原因:大量的数据和应用场景
Hadoop 分布式技术的出现,低成本的存储,计算资源
应用数据阶段
数据整理、数据仓库、初级应用(统计、报表等)、智能应用(数据挖掘、智能驾驶、物联网)
解决问题
信息过载、精准营销、各种预测、各种优化、系统智能化
海量数据采集、存储和计算分析
性能指标
- RT
响应时间:系统对请求作出响应的时间,通常统计的是平均响应时间、最大响应时间
- TPS
吞吐量:系统单位时间内处理请求的数量
- 并发数
系统可以同时承载的正常使用系统功能的用户数,通常统计的是注册用户数、在线用户数、同时发请求用户数
- QPS
每秒查询率是对一个特定查询服务器在规定时间内所处理流量多少的和衡量标准
fetches/sec:每秒响应请求数,即最大吞吐能力
大数据技术生态体系
数据来源、数据传输和存储
结构化数据:Sqoop
半结构化数据:Flume
非结构化数据:Kafka
数据存储:HDFS、HBase
资源管理
资源调度:YARN
数据计算
离线计算:MapReduce
内存计算:Spark Core
实时计算:Spark Streaming、Flink
> 任务调度
Oozie、Azkaban
业务模型层
数据平台配置和调度:Zookeeper(动物管理员)