Flink UI 詳解

1、主頁

2、Running Jobs

2.1 Running Jobs Overview

2.1.1 Jobs Detail

通過點擊plan圖或者點擊status就可以看到Task Detail了

Task Detail里面包括以下部分：
1、JobGraphNode包含的算子,JobGraph的DAG一個頂點就是JobManger的一個調度單位
2、一些參數信息：
2.1 Status：節點的執行狀態
2.2 Task的個數：因為這里設置的並行度是1，所以這個節點的Task的個數就是1
2.3 Parallelism:1 設置的並行度是1
2.4 Records Sent：發送給下一個節點的Records，這個數目應該與下一個節點的Records Received參數的值相對應
2.5 Start Time
2.6 Bytes Received:因為這是一個source 節點所以這個值是0
2.7 End Time
2.8 Records Received
2.9 Duration
2.10 Bytes Sent

2.1.2 SubTask

2.1.3 TaskManagers

2.1.4 Watermarks

(寫的邏輯里面沒用Watermark，以后用到了再更新)

2.1.5 Accumulator

（不好意思~Accumulator也沒用，下次用到了再更新，-_-!!!）

2.1.6 BackPressure

當DAG的某個過程的背壓狀態為 low 或者 high 時，則說明下游的處理速度不及上游的輸出速度。也就是說下游的處理是整個任務的瓶頸所在，需要進行優化處理

2.1.7 metrics

這里可以選擇自己想看的參數，metrics內容較多，后續持續學習更新

2.2 Running Jobs Exception

這個異常是因為把kafka的生產者停了，這里kafka消費策略為從最新的數據開始消費（后續會更kafka消費的博客）

2.3 TimeLine

2.4 Checkpoint

1、Checkpoint統計信息：
Triggered:440,表示自作業開始以來已觸發的檢查點總數為400
inProgress:0,當前進行中的檢查點數量。
Completed:291,自作業開始以來成功完成的檢查點總數。
Failed:149,自作業開始以來失敗的檢查點總數
Restored:3,自作業開始以來的還原操作數。這還告訴您自提交以來作業已重新啟動多少次。注意，帶有保存點的初始提交也算作還原，如果JobManager在操作過程中丟失，則該計數將重置。
2、Latest Completed Checkpoint
反映了最后完成的Checkpoint的信息，點擊小+號可以看到相應Operator的詳細信息
3、Latest Failed Checkpoint
反映了最后失敗的Checkpoint的信息
4、Latest Savepoint
（不好意思_{這個也沒用到}后續用到了再更）
5、latest Restore
這里有兩種類型的還原操作：
* 1、從檢查點還原：我們從定期的定期檢查點還原
* 2、從保存點還原：我們從保存點還原。

2.4.2 History

檢查點歷史記錄保留有關最近觸發的檢查點（包括當前正在進行的檢查點）的統計信息

1、ID:觸發的檢查點的ID。每個檢查點的ID從1開始遞增。
2、Status:檢查點的當前狀態，為“進行中”，已完成或失敗。
3、Acknowledged:表示有多少個 operators對這個 Checkpoint 進行了 ack，由圖可以看出來共有兩個operator對這個Checkpoint 進行了 ack，但是只有一個成功了
4、TriggerTime:在JobManager上觸發檢查點的時間
5、Latest Acknowledged:
6、End to End Duration:端到端持續時間，一個完整檢查點的端到端持續時間由確認該檢查點的最后一個子任務確定。此時間通常比實際檢查點狀態所需的單個子任務長。
7、State Size:狀態大小
8、Buffered During Alignment:對齊期間所有已確認子任務緩沖的字節數。如果在檢查點期間發生流對齊，則該值僅> 0。如果檢查點模式為AT_LEAST_ONCE，這個值會一直為0，因為至少一次模式不需要流對齊
(PS：可以看到這些Checkpoint都失敗了，失敗的原因可以從后續的日志中看出來)
正常的Checkpoint（來自官網）：

2.4.3 Summary

摘要為端到端持續時間，狀態大小和對齊期間緩沖的字節計算了所有已完成檢查點的簡單最小/平均/最大統計信息

2.4.4 Checkpoint

Checkpointing Mode:檢查點模式,精確一次或至少一次
interval:間隔,配置的檢查點間隔。在此間隔內觸發檢查點
Timeout:超時后，JobManager將取消檢查點並觸發新的檢查點。
Minimum Pause Between Checkpoints:檢查點之間的最小所需暫停。檢查點成功完成后，我們至少要等待此時間，然后再觸發下一個檢查點，這可能會延遲常規間隔。
Maximum Concurrent Checkpoints:最大並發檢查點數,可以同時進行的最大檢查點數
Persist Checkpoints Externally:外部保留檢查點,啟用或禁用。如果啟用，還將列出外部檢查點的清除配置（刪除或保留取消）。