數據傾斜的原因及解決方案

本文轉載自查看原文 2019-02-15 11:30 1277

數據傾斜:

數據傾斜在MapReduce編程模型中十分常見,用最通俗易懂的話來說,數據傾斜無非就是大量的相同key被partition分配到一個分區里,造成了'一個人累死,其他人閑死'的情況,這種情況是我們不能接受的,這也違背了並行計算的初衷,首先一個節點要承受着巨大的壓力,而其他節點計算完畢后要一直等待這個忙碌的節點,也拖累了整體的計算時間,可以說效率是十分低下的。

解決方案:

1.增加jvm內存,這適用於第一種情況(唯一值非常少，極少數值有非常多的記錄值(唯一值少於幾千)),這種情況下,往往只能通過硬件的手段來進行調優,增加jvm內存可以顯著的提高運行效率。

2.增加reduce的個數,這適用於第二種情況(唯一值比較多，這個字段的某些值有遠遠多於其他值的記錄數，但是它的占比也小於百分之一或千分之一),我們知道,這種情況下,最容易造成的結果就是大量相同key被partition到一個分區,從而一個reduce執行了大量的工作,而如果我們增加了reduce的個數,這種情況相對來說會減輕很多,畢竟計算的節點多了,就算工作量還是不均勻的,那也要小很多。

3.自定義分區,這需要用戶自己繼承partition類,指定分區策略,這種方式效果比較顯著。

4.重新設計key,有一種方案是在map階段時給key加上一個隨機數,有了隨機數的key就不會被大量的分配到同一節點(小幾率),待到reduce后再把隨機數去掉即可。

5.使用combinner合並,combinner是在map階段,reduce之前的一個中間階段,在這個階段可以選擇性的把大量的相同key數據先進行一個合並,可以看做是local reduce,然后再交給reduce來處理,這樣做的好處很多,即減輕了map端向reduce端發送的數據量（減輕了網絡帶寬）,也減輕了map端和reduce端中間的shuffle階段的數據拉取數量(本地化磁盤IO速率),推薦使用這種方法。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據傾斜的原因以及解決方案 Spark 數據傾斜及其解決方案 Hive千億級數據傾斜解決方案 Hive的HQL語句及數據傾斜解決方案 hive數據傾斜原因以及解決辦法 ajax提交數據遇到400異常，原因及解決方案數據庫中常見的死鎖原因與解決方案高精度傾斜攝影建模解決方案 Hive數據傾斜原因和解決辦法（Data Skew） Hive數據傾斜的原因及主要解決方法