flink的背壓問題產生原因和解決方法

本文轉載自查看原文 2021-03-28 10:41 457

定位問題:

如下圖:

1) flink的checkpoint生成超時, 失敗:

checkpoint超時

2) 查看jobmanager日志,定位問題:

jobmanager日志

3) 找大神幫忙定位問題, 原來是出現了背壓的問題, 緩沖區的數據處理不過來，barrier流動慢，導致checkpoint生成時間長, 出現超時的現象. (checkpoint超時時間設置了30分鍾)

下圖是背壓過高, input 和 output緩沖區都占滿的情況

buffer緩沖區情況

4) 背壓的情況也可以在flink后台的job的JobGraph中查看

背壓過高

下面說說flink感應反壓的過程：

下面這張圖簡單展示了兩個 Task 之間的數據傳輸以及 Flink 如何感知到反壓的：

flink感知背壓

記錄“A”進入了 Flink 並且被 Task 1 處理。（這里省略了 Netty 接收、反序列化等過程）

記錄被序列化到 buffer 中。

該 buffer 被發送到 Task 2，然后 Task 2 從這個 buffer 中讀出記錄。

注意：記錄能被 Flink 處理的前提是，必須有空閑可用的 Buffer。

結合上面兩張圖看：Task 1 在輸出端有一個相關聯的 LocalBufferPool（稱緩沖池1），Task 2 在輸入端也有一個相關聯的 LocalBufferPool（稱緩沖池2）。如果緩沖池1中有空閑可用的 buffer 來序列化記錄 “A”，我們就序列化並發送該 buffer。

這里我們需要注意兩個場景：

本地傳輸：如果 Task 1 和 Task 2 運行在同一個 worker 節點（TaskManager），該 buffer 可以直接交給下一個 Task。一旦 Task 2 消費了該 buffer，則該 buffer 會被緩沖池1回收。如果 Task 2 的速度比 1 慢，那么 buffer 回收的速度就會趕不上 Task 1 取 buffer 的速度，導致緩沖池1無可用的 buffer，Task 1 等待在可用的 buffer 上。最終形成 Task 1 的降速。

遠程傳輸：如果 Task 1 和 Task 2 運行在不同的 worker 節點上，那么 buffer 會在發送到網絡（TCP Channel）后被回收。在接收端，會從 LocalBufferPool 中申請 buffer，然后拷貝網絡中的數據到 buffer 中。如果沒有可用的 buffer，會停止從 TCP 連接中讀取數據。在輸出端，通過 Netty 的水位值機制來保證不往網絡中寫入太多數據（后面會說）。如果網絡中的數據（Netty輸出緩沖中的字節數）超過了高水位值，我們會等到其降到低水位值以下才繼續寫入數據。這保證了網絡中不會有太多的數據。如果接收端停止消費網絡中的數據（由於接收端緩沖池沒有可用 buffer），網絡中的緩沖數據就會堆積，那么發送端也會暫停發送。另外，這會使得發送端的緩沖池得不到回收，writer 阻塞在向 LocalBufferPool 請求 buffer，阻塞了 writer 往 ResultSubPartition 寫數據。

這種固定大小緩沖池就像阻塞隊列一樣，保證了 Flink 有一套健壯的反壓機制，使得 Task 生產數據的速度不會快於消費的速度。我們上面描述的這個方案可以從兩個 Task 之間的數據傳輸自然地擴展到更復雜的 pipeline 中，保證反壓機制可以擴散到整個 pipeline。

解決辦法:

1) 首先說一下flink原來的JobGraph, 如下圖, 產生背壓的是中間的算子,