spark-repartition
問題描述:
streaming 消費多個topic,但是不同topic的每個分區的數據量差距很大,一個數量級以上。導致每個task消費的數據量不一樣,
造成嚴重的數據傾斜。所以需要進行一次repartition使得處理起來比較均勻。
[ 轉自 : https://www.jianshu.com/p/9690f5bcd950
作者:pcqlegend
鏈接:https://www.jianshu.com/p/9690f5bcd950
來源:簡書 ]
spark-repartition
問題描述:
streaming 消費多個topic,但是不同topic的每個分區的數據量差距很大,一個數量級以上。導致每個task消費的數據量不一樣,
造成嚴重的數據傾斜。所以需要進行一次repartition使得處理起來比較均勻。
[ 轉自 : https://www.jianshu.com/p/9690f5bcd950
作者:pcqlegend
鏈接:https://www.jianshu.com/p/9690f5bcd950
來源:簡書 ]
本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。