怎么排查是哪里出現了數據傾斜

本文轉載自查看原文 2021-12-09 11:38 178

Hive 數據傾斜怎么發現，怎么定位，怎么解決

多數介紹數據傾斜的文章都是以大篇幅的理論為主，並沒有給出具體的數據傾斜案例。當工作中遇到了傾斜問題，這些理論很難直接應用，導致我們面對傾斜時還是不知所措。

今天我們不扯大篇理論，直接以例子來實踐，排查是否出現了數據傾斜，具體是哪段代碼導致的傾斜，怎么解決這段代碼的傾斜。

當執行過程中任務卡在 99%，大概率是出現了數據傾斜，但是通常我們的 SQL 很大，需要判斷出是哪段代碼導致的傾斜，才能利於我們解決傾斜。

傾斜問題排查

數據傾斜大多數都是大 key 問題導致的。

如何判斷是大 key 導致的問題，可以通過下面方法：

1.通過時間判斷

如果某個 reduce 的時間比其他 reduce 時間長的多，如下圖，大部分 task 在 1 分鍾之內完成，只有 r_000000 這個 task 執行 20 多分鍾了還沒完成。
在這里插入圖片描述

注意：要排除兩種情況：

如果每個 reduce 執行時間差不多，都特別長，不一定是數據傾斜導致的，可能是 reduce 設置過少導致的。

有時候，某個 task 執行的節點可能有問題，導致任務跑的特別慢。這個時候，mapreduce 的推測執行，會重啟一個任務。如果新的任務在很短時間內能完成，大數據培訓通常則是由於 task 執行節點問題導致的個別 task 慢。但是如果推測執行后的 task 執行任務也特別慢，那更說明該 task 可能會有傾斜問題。

2.通過任務 Counter 判斷

Counter 會記錄整個 job 以及每個 task 的統計信息。counter 的 url 一般類似：

http://bd001:8088/proxy/application_1624419433039_1569885/mapreduce/singletaskcounter/task_1624419433039_1569885_r_000000/org.apache.hadoop.mapreduce.FileSystemCounter

通過輸入記錄數，普通的 task counter 如下，輸入的記錄數是 13 億多:
在這里插入圖片描述