寬依賴 (narrow dependency) 和窄依賴 (wide dependency)

本文轉載自查看原文 2020-09-13 10:38 541 寬依賴/ spark/ 窄依賴

Spark 中：窄依賴：上游 RDD 流向至多一個下游 RDD ；寬依賴：上游 RDD 流向多個下游 RDD 。

這里的寬和窄，說的是當前節點流向下游節點，當前節點數據是否會分區變多份。

寬依賴往往需要 shuffle 操作，stage 會增加。寬依賴導致當前節點分區，可

能增加數據傳輸量，下游故障導致當前整個 RDD 重新計算，浪費。不同算子產生

相應的寬窄依賴。

Flink 中也有 stage 的概念，叫 task，多個算子合成一個 task，合成條件要滿足：

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 rdd 寬依賴和窄依賴 Spark --【寬依賴和窄依賴】 Spark寬依賴、窄依賴 Dependency Property 依賴屬性 Dependency Property 依賴屬性依賴注入（Dependency Injection） spark中寬依賴和窄依賴窄依賴與寬依賴&stage的划分依據算子的分類和寬依賴算子、窄依賴算子 Spark RDD 的寬依賴和窄依賴 -- （視頻筆記）