spark中寬依賴和窄依賴

本文轉載自查看原文 2020-03-09 15:06 1472 spark

窄依賴是指1個父RDD分區對應1個子RDD的分區。換句話說，一個父RDD的分區對應於一個子RDD的分區，或者多個父RDD的分區對應於一個子RDD的分區。所以窄依賴又可以分為兩種情況：

寬依賴是指1個父RDD分區對應多個子RDD分區。寬依賴有分為兩種情況

可以支持在同一個集群Executor上，以pipeline管道形式順序執行多條命令，例如在執行了map后，緊接着執行filter。分區內的計算收斂，不需要依賴所有分區的數據，可以並行地在不同節點進行計算。所以它的失敗恢復也更有效，因為它只需要重新計算丟失的parent partition即可

則需要所有的父分區都是可用的，必須等RDD的parent partition數據全部ready之后才能開始計算，可能還需要調用類似MapReduce之類的操作進行跨節點傳遞。從失敗恢復的角度看，shuffle dependency牽涉RDD各級的多個parent partition。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 rdd 寬依賴和窄依賴算子的分類和寬依賴算子、窄依賴算子寬表和窄表的區別---字段什么是寬表？什么是窄表？寬表和窄表的區別、優點、缺點以及各自的用處 C語言小程序——推箱子（窄字符和寬字符）寬字符wchar_t和窄字符char——putwchar、wprintf Hive 窄表轉寬表 , 長表轉寬表【Spark篇】--Spark中的寬窄依賴和Stage的划分 Docker 搭建Spark 依賴sequenceiq/spark:1.6鏡像 spark教程-Pyspark On Yarn 的模塊依賴問題