1、前言

任何數據庫的引入，監控都是很重要的部分。本篇文章分享下StarRocks的數據庫的存活監控相關的實現

2、思考

StarRocks的監控分為： 存活監控、性能監控 。因為之前的TiDB的經驗，建設分為：

【FE信息查看】：

列名	值	說明
Name	10.1.1.1_666_1628925096585	表示該 FE 節點在 bdbje 中的名稱
IP	10.1.1.1
EditLogPort	6661
HttpPort	6662	web端口
QueryPort	6663	對外查詢端口
RpcPort	6664
Role	FOLLOWER	角色
IsMaster	FALSE	是否是master
ClusterId	1731263968
Join	TRUE	Join 為 true 表示該節點曾經加入過集群。但不代表當前還在集群內（可能已失聯）
Alive	TRUE	Alive 表示節點是否存活。
ReplayedJournalId	44074	表示該節點當前已經回放的最大元數據日志id
LastHeartbeat	2021/8/15 19:18	是最近一次心跳
IsHelper	TRUE	表示該節點是否是 bdbje 中的 helper 節點
ErrMsg		用於顯示心跳失敗時的錯誤信息

【BE信息查看】：

列名	值	說明
BackendId	10002
Cluster	default_cluster
IP	10.2.2.2
HeartbeatPort	7776
BePort	7777
HttpPort	7778
BrpcPort	7779
LastStartTime	2021-08-14 15:11:56	LastStartTime 表示最近一次 BE 啟動時間
LastHeartbeat	2021-08-15 19:27:43	表示最近一次心跳
Alive	TRUE	示節點是否存活
SystemDecommissioned	FALSE	為 true 表示節點正在安全下線中
ClusterDecommissioned	FALSE	為 true 表示節點正在從當前cluster中下線
TabletNum	2266	表示該節點上分片數量
DataUsedCapacity	11.548KB	表示實際用戶數據所占用的空間
AvailCapacity	2.907TB	表示磁盤的可使用空間
TotalCapacity	2.909TB	表示總磁盤空間
UsedPct	0.0005	示磁盤已使用量百分比
MaxDiskUsedPct	0.0005
ErrMsg		用於顯示心跳失敗時的錯誤信息
Version	1.17.1-914c0d2
Status	{“lastSuccessReportTabletsTime”:“2021-08-1519:27:03”}	於以 JSON 格式顯示BE的一些狀態信息,目前包括最后一次BE匯報其tablet的時間信息