flink web頁面中提供了針對Job Checkpoint相關的監控信息。Checkpoint監控頁面共有overview、history、summary和configuration四個頁簽,分別對Checkpoint從不同的角度進行了監控,每個頁面中都包含了與Checkpointing相關的指標。
一、overview
overview頁簽中宏觀地記錄了flink應用中Checkpoint的數量以及Checkpoint的最新記錄,包括失敗和完成的Checkpoint記錄。
overview頁簽中包含了一下指標:
- Checkpoint counts:包含了觸發、進行中、完成、失敗、重置等Checkpoint狀態數量統計。
- lastest completed Checkpoint:記錄了最近一次完成的Checkpoint信息,包括結束時間,端到端市場,狀態大小等。
- lastest faild Checkpoint:記錄了最近一次失敗的Checkpoint信息。
- lastest savepoint:記錄了最近一次savepoint觸發的信息。
- lastest restore:記錄了最近一次重置操作的信息,包括從Checkpoint到savepoint兩種數據中重置恢復任務。
二、history
history頁面記錄了歷史觸發Checkpoint的詳情,包括Checkpoint的ID、狀態、觸發時間,最后一次Acknowledgement信息等,通過點擊More details對應的鏈接可以查看子task對應的Checkpoint數據
三、summary
summary頁面中記錄了所有完成的Checkpoint統計指標的最大值、最小值,以及平均值等,指標中包含端對端的持續時間、狀態大小,以及分配過程中緩沖的數據大小。
四、configuration
- configuration中包含Checkpoint中所有的基本配置,具體配置如下:
- Checkpoint mode:標記Checkpoint是exactly once 還是 at least once的模式。
- interval:Checkpoint觸發的時間間隔,時間間隔越小意味着越頻繁的Checkpoint。
- timeout:Checkpoint觸發超時時間,超過指定時間JobManager會取消當次Checkpoint,並重新啟動新的Checkpoint。
- minimum pause between Checkpoint:配置兩個Checkpoint之間最短時間間隔,當上一次Checkpoint結束后,需要等待該時間間隔才能觸發下一次Checkpoint,避免觸發過多的Checkpoint導致系統資源被消耗。
- persist Checkpoint externally:如果開啟Checkpoint,數據將同時寫到外部持久化存儲中