數倉集群管理：單節點故障RTO機制分析

本文轉載自查看原文 2021-03-18 11:33 386 華為雲新鮮技術分享/ 單節點故障/ 華為雲/ GaussDB (DWS)/ RTO/ 集群

摘要：大規模分布式系統中的故障無法避免。發生單點故障時，集群狀態和業務是如何恢復的？

一、前言

GaussDB(DWS)產品采用分布式架構設計。集群管理（高可用）需要在穩定性和靈敏性之間做好平衡。

集群發生單節點故障（如宕機、斷網、下電等）時，端到端業務恢復的RTO (Recovery Time Objective)流程和指標，主要包含兩大過程：集群狀態恢復（CM Server主備倒換，DN/GTM主備倒換）和業務恢復（CN可正常執行業務）。

本文關注集群狀態恢復部分，剩余部分后續單獨分析。

參考鏈接：

通常情況下故障CN自動剔除的觸發時間較長（默認10分鍾），因此本文不涉及CN剔除和實例修復的流程，也不討論CN故障時DDL業務的中斷。

假設如下：

關鍵配置參數如下：
【CM側配置參數】實例心跳超時instance_heartbeat_timeout（默認30秒）, 后續用 T_{\rm hb}Thb 表示。

說明：由於C/C++語言中乘法和除法不滿足結合律，本文涉及運算均為整數運算。

忽略CN的部署，以下圖所示的三節點集群為例：

當節點1故障，集群將短時間處於不可用狀態，然后自動恢復至降級狀態，隨后可在CN上正常執行業務。因此，RTO流程的討論可分為四個階段。

1）單節點故障發生，集群處於不可用狀態，cm_server/GTM/DN處於無主狀態

2）cm_server備機升主，GTM/DN等待仲裁

3）GTM/DN備機（並行）升主，集群恢復至降級狀態

4）CN鏈接至GTM和DN，正常執行業務

以故障發生時刻為0時刻點，下面逐個分析每個階段並計算相關時間。

單節點故障發生后，集群管理組件出於穩定性考慮，並不會立刻感知故障狀態。兩個cm_server實例之間通信時，根據心跳判斷對方的存活狀態。如果二者間心跳超時，則進入如下的自仲裁流程（對端鏈接均指與另一個cm_server的鏈接）。

集群管理的仲裁采用被動觸發的形式。每個cm_agent檢測所在節點的實例狀態，並定期上報（固定間隔1秒）至主cm_server；主cm_server綜合各實例狀態進行仲裁，然后將必要的仲裁結果發送至相關cm_agent；cm_agent收到仲裁結果，執行相應的命令。

以某個主 DN 故障為例，一次典型的仲裁流程包括：

① CM Agent 1探測DN主實例並發現故障
② CM Agent 1持續上報實例故障信息至CM Server
③ CM Server執行仲裁流程，選擇DN備機升主
④ CM Server下發升主命令至CM Agent 2
⑤ CM Agent 2對實例執行升主操作

對於單節點故障，DN和GTM實例的仲裁可同時進行，分步驟的時間如下：

將CM Server自仲裁和DN/GTM仲裁的時間相加，即為集群狀態恢復的耗時（單位：秒）

用戶可根據自身情況，通過調整instance_heartbeat_timeout參數選擇合適的RTO指標。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Kafka集群篇-節點故障數倉1.1 |概述| 集群環境搭建數倉備機DN重建：快速修復你的數倉DN單點故障數倉建模—埋點設計與管理 MongoDB集群節點RECOVERING故障恢復【數倉面試】數倉分層架構、作用、數據采集層、數據存儲與分析、數倉分層的好處 hyperledger fabric各類節點及其故障分析 Redis服務之集群節點管理 MVC + EFCore 項目實戰 - 數倉管理系統1 Greenplum集群Master與Segment節點故障檢測與恢復