【Spark調優】數據傾斜及排查

本文轉載自查看原文 2019-03-21 22:39 688 Spark

【數據傾斜及調優概述】

　　大數據分布式計算中一個常見的棘手問題——數據傾斜：　　

　　在進行shuffle的時候，必須將各個節點上相同的key拉取到某個節點上的一個task來進行處理，比如按照key進行聚合或join等操作。此時如果某個key對應的數據量特別大的話，就會發生數據傾斜。比如大部分key對應10條數據，但是個別key卻對應了百萬條數據，那么大部分task可能就只會分配到10條數據，然后1秒鍾就運行完了；但是個別task可能分配到了百萬數據，要運行一兩個小時。木桶原理，整個作業的運行進度是由運行時間最長的那個task決定的。

　　出現數據傾斜的時候，絕大多數task執行得都非常快，但個別task執行極慢。例如，總共有1000個task，997個task都在1分鍾之內執行完了，但是剩余兩三個task卻要一兩個小時。這種情況很常見。原本能夠正常執行的Spark作業，某天突然報出OOM（內存溢出）異常，觀察異常棧，是我們寫的業務代碼造成的。這種情況比較少見。

　　此時Spark作業的性能會比期望差很多。數據傾斜調優，就是使用各種技術方案解決不同類型的數據傾斜問題，以保證Spark作業的性能。

【定位發生數據傾斜的代碼】

1） 數據傾斜只會發生在shuffle過程中。所以關注一些常用的並且可能會觸發shuffle操作的算子：distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等。出現數據傾斜時，可能就是代碼中使用了這些算子中的某一個所導致的。

2）通過觀察spark UI的界面，定位數據傾斜發生在第幾個stage中。

如果是用yarn-client模式提交，那么本地是直接可以看到log的，可以在log中找到當前運行到了第幾個stage；如果是用yarn-cluster模式提交，則可以通過Spark Web UI來查看當前運行到了第幾個stage。此外，無論是使用yarn-client模式還是yarn-cluster模式，我們都可以在Spark Web UI上深入看一下當前這個stage各個task分配的數據量，從而進一步確定是不是task分配的數據不均勻導致了數據傾斜。