宽依赖 (narrow dependency) 和窄依赖 (wide dependency)


Spark 中:窄依赖:上游 RDD 流向至多一个下游 RDD ;宽依赖:上游 RDD 流向多个下游 RDD 。

这里的宽和窄,说的是当前节点流向下游节点,当前节点数据是否会分区变多份。

宽依赖往往需要 shuffle 操作,stage 会增加。宽依赖导致当前节点分区,可

能增加数据传输量,下游故障导致当前整个 RDD 重新计算,浪费。不同算子产生

相应的宽窄依赖。

 

Flink 中也有 stage 的概念,叫 task,多个算子合成一个 task,合成条件要满足:

  • 上下游的并行度一致
  • 下游节点的入度为1 (也就是说下游节点没有来自其他节点的输入)
  • 上下游节点都在同一个 slot group 中(下面会解释 slot group)
  • 下游节点的 chain 策略为 ALWAYS(可以与上下游链接,map、flatmap、filter等默认是ALWAYS)
  • 上游节点的 chain 策略为 ALWAYS 或 HEAD(只能与下游链接,不能与上游链接,Source默认是HEAD)
  • 两个节点间数据分区方式是 forward(参考理解数据流的分区) 用户没有禁用 chain


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM