Spark RDD 的寬依賴和窄依賴 -- (視頻筆記)


窄依賴 narrow dependency

map,filter,union ,

join(co-partitioned)制定了父RDD中的分片具體交給哪個唯一的子RDD

並行的,RDD分片是獨立的。

只依賴相同ID的分片

range分片

one to dependency

range dependency

內部可以previously computed partition

可以將計算合並,可以極大的提升效率,編寫的時候可能是多個函數,執行的時候合並成一個函數,極大的減少了零碎內存或磁盤資源。

 

寬依賴

groupByKey,join with inputs not co-partitioned

多個子RDD的分片會依賴同一個父RDD分片

或者說同一個父RDD的分片都有多個子RDD的分片使用。

會產生shuffle。

shuffle dependency

【hash shuffle,sort shuffle】

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM