Spark性能調優之Shuffle調優


 


Spark性能調優之Shuffle調優

   •  Spark底層shuffle的傳輸方式是使用netty傳輸,netty在進行網絡傳輸的過程會申請堆外內存(netty是零拷貝),所以使用了堆外內存

     shuffle過程中常出現的問題
常見問題一:reduce oom?
    問題原因:
       reduce task 去map端獲取數據,reduce一邊拉取數據一邊聚合,reduce端有一塊聚合內存(executor memory * 0.2),也就是這塊內存不夠
     解決辦法:
                           1.增加reduce 聚合操作的內存的比例  
                           2.增加Executor memory的大小   --executor-memory 5G
                           3.減少reduce task每次拉取的數據量 設置 spak.reducer.maxSizeInFlight 24m, 拉取的次數就多了,因此建立連接的次數增多,有可能會連接不上(正好趕上map task端進行GC)
 
常見問題二:錯誤描述--shuffle file cannot find   or   executor lost
    什
么時候需要調節Executor的堆外內存大小?
       • shuffle file cannot find (DAGScheduler,resubmitting task)
       • executor lost
       • task lost
       • out of memory
     問題原因:
         1.map task所運行的executor內存不足,導致executor
掛掉了,executor里面的BlockManager就掛掉了,導致ConnectionManager不能用,也就無法建立連接,從而不能拉取數據
         2.executor並沒有掛掉
            2.1 BlockManage之間的連接失敗(map task所運行的executor正在GC)
            2.2建立連接成功,map task所運行的executor正在GC
        3.reduce task向Driver中的MapOutputTracker獲取shuffle file位置的時候出現了問題
     解決辦法:
        1.增大Executor內存(即堆內內存) ,申請的堆外內存也會隨之增加--executor-memory 5G
        2.增大堆外內存 --conf spark.yarn.executor.memoryoverhead 2048M
   --conf spark.executor.memoryoverhead 2048M
 (默認申請的堆外內存是Executor內存的10%,真正處理大數據的時候, 這里都會出現問題,導致spark作業反復崩潰,無法運行;此時就會去調節這個參數,到至少1G (1024M),甚至說2G、4G)
)
 
buffer 32k     //緩沖區默認大小為32k   SparkConf.set("spark.shuffle.file.buffer","64k")
reduce  48M  //reduce端拉取數據的時候,默認大小是48M 
SparkConf.set("spark.reducer.maxSizeInFlight","96M")
    
spark.shuffle.file.buffer
默認值:32k
參數說明:該參數用於設置shuffle write task的BufferedOutputStream的buffer緩沖大小。將數據寫到磁盤文件之前,會先寫入buffer緩沖中,待緩沖寫滿之后,才會溢寫到磁盤。
調優建議:如果作業可用的內存資源較為充足的話,可以適當增加這個參數的大小(比如64k),從而減少shuffle write過程中溢寫磁盤文件的次數,也就可以減少磁盤IO次數,進而提升性能。在實踐中發現,合理調節該參數,性能會有1%~5%的提升。
 
spark.reducer.maxSizeInFlight
默認值:48m
參數說明:該參數用於設置shuffle read task的buffer緩沖大小,而這個buffer緩沖決定了每次能夠拉取多少數據。
調優建議:如果作業可用的內存資源較為充足的話,可以適當增加這個參數的大小(比如96m),從而減少拉取數據的次數,也就可以減少網絡傳輸的次數,進而提升性能。在實踐中發現,合理調節該參數,性能會有1%~5%的提升。
錯誤:reduce oom
reduce task去map拉數據,reduce 一邊拉數據一邊聚合   reduce段有一塊聚合內存(executor memory * 0.2)
解決辦法:1、增加reduce 聚合的內存的比例  設置spark.shuffle.memoryFraction
2、 增加executor memory的大小  --executor-memory 5G
3、減少reduce task每次拉取的數據量  設置spark.reducer.maxSizeInFlight  24m
 
spark.shuffle.io.maxRetries
默認值:3
參數說明:shuffle read task從shuffle write task所在節點拉取屬於自己的數據時,如果因為網絡異常導致拉取失敗,是會自動進行重試的。該參數就代表了可以重試的最大次數。如果在指定次數之內拉取還是沒有成功,就可能會導致作業執行失敗。
調優建議:對於那些包含了特別耗時的shuffle操作的作業,建議增加重試最大次數(比如60次),以避免由於JVM的full gc或者網絡不穩定等因素導致的數據拉取失敗。在實踐中發現,對於針對超大數據量(數十億~上百億)的shuffle過程,調節該參數可以大幅度提升穩定性。
shuffle file not find    taskScheduler不負責重試task,由DAGScheduler負責重試stage
 
spark.shuffle.io.retryWait
默認值:5s
參數說明:具體解釋同上,該參數代表了每次重試拉取數據的等待間隔,默認是5s。
調優建議:建議加大間隔時長(比如60s),以增加shuffle操作的穩定性。
 
spark.shuffle.memoryFraction
默認值:0.2
參數說明:該參數代表了Executor內存中,分配給shuffle read task進行聚合操作的內存比例,默認是20%。
調優建議:在資源參數調優中講解過這個參數。如果內存充足,而且很少使用持久化操作,建議調高這個比例,給shuffle read的聚合操作更多內存,以避免由於內存不足導致聚合過程中頻繁讀寫磁盤。在實踐中發現,合理調節該參數可以將性能提升10%左右。
 
spark.shuffle.manager
默認值:sort
參數說明:該參數用於設置ShuffleManager的類型。Spark 1.5以后,有三個可選項:hash、sort和tungsten-sort。HashShuffleManager是Spark 1.2以前的默認選項,但是Spark 1.2以及之后的版本默認都是SortShuffleManager了。tungsten-sort與sort類似,但是使用了tungsten計划中的堆外內存管理機制,內存使用效率更高。
調優建議:由於SortShuffleManager默認會對數據進行排序,因此如果你的業務邏輯中需要該排序機制的話,則使用默認的SortShuffleManager就可以;而如果你的業務邏輯不需要對數據進行排序,那么建議參考后面的幾個參數調優,通過bypass機制或優化的HashShuffleManager來避免排序操作,同時提供較好的磁盤讀寫性能。這里要注意的是,tungsten-sort要慎用,因為之前發現了一些相應的bug。
 
spark.shuffle.sort.bypassMergeThreshold
默認值:200
參數說明:當ShuffleManager為SortShuffleManager時,如果shuffle read task的數量小於這個閾值(默認是200),則shuffle write過程中不會進行排序操作,而是直接按照未經優化的HashShuffleManager的方式去寫數據,但是最后會將每個task產生的所有臨時磁盤文件都合並成一個文件,並會創建單獨的索引文件。
調優建議:當你使用SortShuffleManager時,如果的確不需要排序操作,那么建議將這個參數調大一些,大於shuffle read task的數量。那么此時就會自動啟用bypass機制,map-side就不會進行排序了,減少了排序的性能開銷。但是這種方式下,依然會產生大量的磁盤文件,因此shuffle write性能有待提高。
 
spark.shuffle.consolidateFiles
默認值:false
參數說明:如果使用HashShuffleManager,該參數有效。如果設置為true,那么就會開啟consolidate機制,會大幅度合並shuffle write的輸出文件,對於shuffle read task數量特別多的情況下,這種方法可以極大地減少磁盤IO開銷,提升性能。
調優建議:如果的確不需要SortShuffleManager的排序機制,那么除了使用bypass機制,還可以嘗試將spark.shffle.manager參數手動指定為hash,使用HashShuffleManager,同時開啟consolidate機制。在實踐中嘗試過,發現其性能比開啟了bypass機制的SortShuffleManager要高出10%~30%。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM