核心特点

  1. 批流一体

    有界数据(批)、无界数据(流)

  2. 可靠的容错率

  3. 高吞吐、低延迟

    分布式快照、检查点

  4. 大规模复杂计算

  5. 多平台部署

架构

”数据输入(source)“ ——> “数据计算、处理、转化” ——> “数据输出(sink)”,此过程为数据处理流水线 Pipeline

source、sink合并起来即为 “IO”
Flink 中将这一过程抽象为 “Transformation”

横向拆分、纵向拆分
并行度:parallism 表示一个步骤有多少个实例并行执行
实例 :Task
DAG 任务有向无环图