7月27日,2021可信雲大會在北京召開。會上,阿里雲故障演練平台入選可信雲最佳技術實踐,並首批通過可信雲混沌工程平台能力要求最高等級-先進級認證。同時,由信通院牽頭,阿里雲計算有限公司聯合多家企業共同發起的“混沌工程實驗室”宣布成立。
雙項認證,阿里雲故障演練平台獲可信雲最高等級認證
隨着企業對於雲計算的理解和實踐不斷深入,基於雲計算的分布式架構成為越來越多企業應用構建的首選方案,如何通過混沌工程提升雲原生系統穩定性和保障業務連續性成為業內普遍關注的話題。
混沌工程是主要通過故障注入的方式,提前發現系統穩定性等問題,旨在提升系統和組織韌性,打造韌性的架構,保障業務連續性。在信通院可信雲混沌工程平台測評中,阿里雲故障演練平台以最高分成績通過資源支持、故障場景、場景管理、實驗流程、實驗防護、實驗度量、權限管理、安全審計等8項能力測評,並入選2021可信雲最佳技術實踐,雙項認證,再一次證明了阿里雲在混沌工程領域的技術和產品實力。
故障演練隨着阿里巴巴系統架構從微服務,到容器化,再到雲原生一起發展,內部已有近10年的混沌工程落地實踐經驗。阿里雲故障演練平台將阿里巴巴內部的實踐經驗以產品化的方式對外輸出,提供豐富的實驗場景和專家經驗庫、領域化的解決方案,滿足用戶的故障場景需求,在靈活的流程編排和開放的集成能力下,提供監控、報告等實現混沌工程實施閉環,通過權限管控和演練防護來控制故障演練的風險,幫助企業在雲遷移、雲就緒、雲原生過程中提升系統穩定性和業務連續性。
自混沌工程理論提出以來,很多企業在探索和實踐,但落地形式不同,阿里雲故障演練平台有何不同?
- 靈活的流程編排:制訂了一套標准化的演練流程,在此基礎上可以添加所需的流程節點。同時支持多場景的運行方式。
- 可視化故障演練:與架構感知集成,在架構拓撲可視化的基礎上,實現故障注入,同時可以配合架構巡檢,發現系統風險點,使用故障演練進行驗證。
- 多樣的專家經驗庫:將阿里巴巴內部多年的故障演練經驗沉淀到演練模板中,具備演練場景的真實性和實用性,極大的提升演練創建的效率,同時解決用戶上手混沌工程難的問題。
- 領域化的解決方案:提供對服務組件、系統架構等穩定性驗證的產品化解決方案,通過架構感知、依賴分析等動態識別組件和架構,自動生成演練方案,達到快、准、全的演練目的。
使用故障演練平台做混沌工程,可以衡量微服務的容錯能力,估算系統容錯紅線,衡量系統容錯能力。並且,故障演練平台可以驗證容器編排配置是否合理,測試PaaS層是否健壯,驗證監控告警的時效性,提升監控告警的准確和時效性。通過故障突襲,隨機對系統注入故障,考察相關人員對問題的應急能力,以及問題上報、處理流程是否合理,達到以戰養戰,鍛煉人定位與解決問題的能力。通過故障注入的方式,提前發現系統穩定性等問題,旨在提升系統和組織韌性,打造韌性的架構,保障業務連續性。
阿里雲故障演練平台自2019年商業化以來,通過多樣化的實驗工具,自動化的工具部署,多維度的演練方式,靈活的流程編排,豐富的故障場景,實用的演練模板,專業的解決方案,安全的演練防護,深度的雲產品集成,已經擁有近千個企業客戶,服務了包括華泰證券、比心科技、親寶寶等客戶,助力企業在雲原生時代構建數字韌性能力。
推動標准統一,打造ChaosBlade 開源項目,縮短構建混沌工程路徑
近幾年,越來越多的企業開始關注並探索混沌工程,漸漸成為測試系統高可用,構建對系統信息不可缺少的工具。但混沌工程領域目前還處於一個快速演進的階段,最佳實踐和工具框架沒有統一標准。實施混沌工程可能會帶來一些潛在的業務風險,經驗和工具的缺失也將進一步阻止 DevOps 人員實施混沌工程。混沌工程領域目前也有很多優秀的開源工具,分別覆蓋某個領域,但這些工具的使用方式千差萬別,其中有些工具上手難度大,學習成本高,混沌實驗能力單一,使很多人對混沌工程領域望而卻步。
阿里巴巴集團在混沌工程領域已經實踐多年,為了幫助企業更好地構建混沌工程路徑,阿里巴巴在2019年開源了混沌工程項目 ChaosBlade,並在今年成為 CNCF Sandbox 項目。將"自研技術"、"開源項目"、"商業產品"形成統一的技術體系,阿里雲通過三位一體的正向循環,實現了技術價值的最大化。
ChaosBlade 是一款遵循混沌工程原理的開源工具,包含混沌工程實驗工具 chaosblade 和混沌工程平台 chaosblade-box,旨在通過混沌工程幫助企業解決雲原生過程中高可用問題。實驗工具 chaosblade 支持 3 大系統平台,4 種編程語言應用,共涉及 200 多個實驗場景,3000 多個實驗參數,可以精細化地控制實驗范圍。ChaosBlade 已成為阿里雲故障演練平台基礎能力底座服務眾多企業客戶。
未來,ChaosBlade 將繼續以雲原生為基礎,提供面向多集群、多環境、多語言的混沌工程平台和混沌工程實驗工具;后續會托管更多的混沌實驗工具和兼容主流的平台,實現場景推薦,提供業務、系統監控集成,輸出實驗報告,在易用的基礎上完成混沌工程操作閉環。
業內首個混沌工程實驗室正式成立,推動混沌工程實踐落地
在數字化產業對系統穩定性和雲計算高可用要求越來越高的大背景下,由中國信通院牽頭,阿里雲等眾多企業共同參與的混沌工程實驗室正式成立。混沌工程實驗室將推動混沌工程在各領域典型應用場景中的實踐落地,聯動雲計算上下游企業來共同推進混沌工程快速發展。
阿里雲擁有國內最豐富的混沌工程實踐經驗,並致力於打造雲原生時代的混沌工程標准體系。阿里雲在海量互聯網服務以及歷年雙11場景的實踐過程中,沉淀出了包括全鏈路壓測、線上流量管控、故障演練等高可用核心技術,並通過開源和雲上服務的形式對外輸出,以幫助企業用戶和開發者享受技術紅利,提高開發效率,縮短業務的構建流程。