核心特点
批流一体
有界数据(批)、无界数据(流)
可靠的容错率
高吞吐、低延迟
分布式快照、检查点
大规模复杂计算
多平台部署
架构
”数据输入(source)“ ——> “数据计算、处理、转化” ——> “数据输出(sink)”,此过程为数据处理流水线 Pipeline
source、sink合并起来即为 “IO”
Flink 中将这一过程抽象为 “Transformation”
横向拆分、纵向拆分
并行度:parallism 表示一个步骤有多少个实例并行执行
实例 :Task
DAG 任务有向无环图