bypass SortShuffleManager的bypass運行機制

本文轉載自查看原文 2019-11-23 09:43 362 大數據

下圖說明了bypass SortShuffleManager的原理。bypass運行機制的觸發條件如下：

此時task會為每個下游task都創建一個臨時磁盤文件，並將數據按key進行hash然后根據key的hash值，將key寫入對應的磁盤文件之中。當然，寫入磁盤文件時也是先寫入內存緩沖，緩沖寫滿之后再溢寫到磁盤文件的。最后，同樣會將所有臨時磁盤文件都合並成一個磁盤文件，並創建一個單獨的索引文件。

該過程的磁盤寫機制其實跟未經優化的HashShuffleManager是一模一樣的，因為都要創建數量驚人的磁盤文件，只是在最后會做一個磁盤文件的合並而已。因此少量的最終磁盤文件，也讓該機制相對未經優化的HashShuffleManager來說，shuffle read的性能會更好。

而該機制與普通SortShuffleManager運行機制的不同在於：第一，磁盤寫機制不同；第二，不會進行排序。也就是說，啟用該機制的最大好處在於，shuffle write過程中，不需要進行數據的排序操作，也就節省掉了這部分的性能開銷。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 RDD的運行機制 Java的運行機制 MVC運行機制談談java的運行機制 ExceptionHandler運行機制分析 Presto 運行機制簡介 js代碼的運行機制 Debian 自動運行機制一文搞懂jsBridge的運行機制從hello world 說程序運行機制