更強、更穩、更高效：解讀 etcd 技術升級的三駕馬車

本文轉載自查看原文 2019-12-05 14:17 398 etcd

作者 | 陳星宇（宇慕）阿里雲基礎技術中台技術專家

導讀：etcd 是阿里巴巴內部容器雲平台用於存儲關鍵元信息的組件。阿里巴巴使用 etcd 已經有 3 年的歷史, 在今年雙11 過程中它又一次承擔了關鍵角色，接受了雙11 大壓力的檢驗。為了讓更多同學了解到 etcd 的最佳實踐和阿里巴巴內部的使用經驗，本文作者將和大家分享阿里巴巴是如何把 etcd 升級得更強、更穩、更高效的，希望通過這篇文章讓更多人了解 etcd, 享受雲原生技術帶來的紅利。

讓 etcd 變得更強

本節主要介紹 etcd 在性能方面的升級工作。首先我們來理解一下 etcd 的性能背景。

性能背景

這里先庖丁解牛，將 etcd 分為如下幾個部分，如下圖所示：

每一部分都有各自的性能影響，讓我們逐層分解：

raft 層：raft 是 etcd 節點之間同步數據的基本機制，它的性能受限於網絡 IO、節點之間的 rtt 等， WAL 受到磁盤 IO 寫入延遲；
存儲層：負責持久化存儲底層 kv, 它的性能受限於磁盤 IO，例如：fdatasync 延遲、內存 treeIndex 索引層鎖的 block、boltdb Tx 鎖的 block 以及 boltdb 本身的性能；
其他還有諸如宿主機內核參數、grpc api 層等性能影響因子。

服務端優化

了解完背景后，這里介紹一下性能優化手段，主要由服務端和客戶端兩個方面組成，這里先介紹服務端優化的一些手段。

硬件部署

etcd 是一款對 cpu、內存、磁盤要求較高的軟件。隨着內部存儲數據量的增加和對並發訪問量的增大，我們需要使用不同規格的硬件設備。這里我們推薦 etcd 至少使用 4 核 cpu、8GB 內存、SSD 磁盤、高速低延遲網絡、獨立宿主機部署等（具體硬件的配置信息）。在阿里巴巴，由於有超大規模的容器集群，因此我們運行 etcd 的硬件也較強。

軟件優化

etcd 是一款開源的軟件，集合了全世界優秀軟件開發者的智慧。最近一年在軟件上有很多貢獻者更新了很多性能優化，這里分別從幾個方面來介紹這些優化，最后介紹一個由阿里巴巴貢獻的 etcd 存儲優化。

內存索引層。由於索引層大量使用鎖機制同步對性能影響較大，通過優化鎖使用，提升了讀寫性能，具體參考：github pr；
lease 規模化使用。lease 是 etcd 支持 key 使用 ttl 過期的機制。在之前的版本中 scalability 較差，當有大量 lease 時性能下降的較為嚴重，通過優化 lease revoke 和過期失效的算法，解決了 lease 規模性的問題，具體參考：github pr；
后端 boltdb 使用優化。etcd 使用 boltdb 作為底層數據庫存儲 kv, 它的使用優化對整體性能影響很大。

通過調節不同的 batch size 和 interval，使我們可以根據不同硬件和工作負載優化性能，具體參考：github pr。

除此之外，新的完全並發讀特性也優化了 boltdb tx 讀寫鎖性能，大幅度地提升了讀寫性能，具體參考：github pr。

最后介紹一個由阿里巴巴自主研發並貢獻開源社區的優化：基於 segregated hashmap 的 etcd 內部存儲 freelist 分配回收算法。

下圖是一個 etcd 節點的架構，etcd 使用 boltdb 持久化存儲所有 kv，它的性能好壞對 etcd 性能起着非常重要的作用。

在阿里巴巴內部大規模使用 etcd 用於存儲元數據，在使用中我們發現了 boltdb 的性能問題。這里給大家分享一下：

上圖是 etcd 內部存儲分配回收的核心算法。etcd 內部默認以 4kB 為一個頁面大小存儲數據。圖中的數字表示頁面 id, 紅色表示該頁面正在使用, 白色表示沒有。當用戶刪除數據時 etcd 不會把存儲空間還給系統，而是內部先留存起來維護一個頁面池，以提升再次使用的性能，這個頁面池專業術語叫 freelist。當 etcd 需要存儲新數據時，普通 etcd 會線性掃描內部 freelist，時間復雜度 o(n)，當數據量超大或是內部碎片嚴重的情況下，性能會急劇下降。

因此我們重新設計並實現了基於 segregated hashmap 的 etcd 內部存儲 freelist 分配回收新算法，該優化算法將內部存儲分配算法時間復雜度從 o(n) 降為 o(1), 回收從 o(nlgn) 也降為 o(1), 使 etcd 性能有了質的飛躍，極大地提高了 etcd 存儲數據的能力，使得 etcd 存儲容量提升 50 倍，從推薦的 2GB 提升到 100GB；讀寫性能提升 24 倍。CNCF 官方博客收錄了此次更新，感興趣的讀者可以讀一下。

客戶端優化

性能優化除了服務端要做的事情外，還需要客戶端的幫助。保持客戶端使用最佳實踐將保證 etcd 集群穩定高效地運行，這里我們分享 3 個最佳實踐：

put 數據時避免大的 value, 大的 value 會嚴重影響 etcd 性能，例如：需要注意 Kubernetes 下 crd 的使用；
避免創建頻繁變化的 key/value, 例如：Kubernetes 下 node 數據上傳更新；
避免創建大量 lease 對象，盡量選擇復用過期時間接近的 lease, 例如 Kubernetes 下 event 數據的管理。

讓 etcd 管理更高效

作為基於 raft 協議的分布式鍵值數據庫，etcd 是一個有狀態的應用。管理 etcd 集群狀態、運維 etcd 節點、冷熱備份、故障恢復等過程均有一定復雜性，且需要具備 etcd 內核相關的專業知識，想高效地運維 etcd 有不小的挑戰。

目前在業界里已經有一些 etcd 運維的工具，例如開源的 etcd-operator 等，但是這些工具往往比較零散，功能通用性不強，集成度比較差，學習這些工具的使用也需要一定的時間，關鍵是這些工具不是很穩定，存在穩定性風險等。

面對這些問題，我們根據阿里巴巴內部場景，基於開源 etcd-operator 進行了一系列修改和加強，開發了 etcd 運維管理平台 Alpha。利用它，運維人員可以高效地運維管理 etcd，之前要前后操作多個工具完成的任務，現在只要操作它就可以完成，一個人就可以管理成百上千的 etcd 集群。

下圖展示了 Alpha 的基礎功能：

如上圖所示，Alpha 分為 etcd 生命周期管理和數據管理兩大部分。

其中生命周期管理功能依托於 operator 中聲明式的 CustomResource 定義，將 etcd 的集群創建、銷毀的過程流程化、透明化，用戶不再需要為每個 etcd 成員單獨制定繁瑣的配置，僅需要指定成員數量、成員版本、性能參數配置等幾個簡單字段。除此之外，我們還提供了 etcd 版本升級、故障節點替換、集群實例啟停等功能，將 etcd 常用的運維操作自動化，同時也在一定程度上保證了 etcd 變更的穩定性。

其次，數據作為 etcd 的核心內容，我們也開發了一系列功能進行重點保障。在備份上，數據管理工具支持定期冷備及實時熱備，且保持本地盤和雲上 OSS 兩類備份，同時也支持從備份上快速恢復出一個新的 etcd 集群。此外，數據管理工具支持對 etcd 進行掃描分析，發現當前集群的熱點數據鍵值數和存儲量，彌補了業界無法提供數據管理的空白，同時該拓展也是 etcd 支持多租戶的基礎。最后，數據管理工具還支持對 etcd 進行垃圾數據清理、跨集群數據騰挪傳輸等功能。

這些豐富的功能為上層 Kubernetes 集群的管理提供了很多靈活的幫助，例如用戶 A 原來在某雲廠商或自建 Kubernetes 集群，我們可以通過遷移 etcd 內部的賬本數據的功能，將用戶的核心數據搬移至另外一個集群，方便地實現用戶的 K8s 集群跨雲遷移。

利用 Alpha，我們可以做到透明化、自動化、白屏化，減少人肉黑屏操作，讓 etcd 運維管理更高效。

讓 etcd 變得更穩

本節主要介紹一些 etcd 穩定建設的技巧。大家知道 etcd 是容器雲平台的底層依賴核心，它的服務質量、穩定程度決定了整個容器雲的穩定程度，其重要性無需贅述。這里先介紹一下 etcd 常見的問題和風險分析，如下圖所示，主要分三個方面：

etcd 自身：例如 OOM、代碼 bug、panic 等；
宿主機環境：例如宿主機故障、網絡故障、同一台宿主機其他進程干擾；
客戶端：例如客戶端 bug、運維誤操作、客戶端濫用 ddos 等。

針對這些風險點，我們從以下幾方面入手：

建立完善的監控告警機制，覆蓋客戶端輸入，etcd 自身以及宿主機環境狀態；
客戶操作審計，高危操作如刪除數據做風控限流；
數據治理，分析客戶端濫用，引導最佳實踐；
定期數據冷備，通過熱備實現異地多活，保證數據安全；
常態化故障演練，做好故障恢復預案。

總結展望：讓 etcd 變得更智能

本文分別從性能、穩定性、生態工具三個部分享了 etcd 變得更強、更快、更高效的技巧。在未來我們還將為讓 etcd 變得更智能而努力。如何讓 etcd 變得更智能是一個比較高級的話題，這里簡單做一下展望。更智能的意思是指可以使 etcd 的管理更加地聰明，更少的人為干預，例如遇到一些故障，系統可以自行修復等。

本書亮點

雙11 超大規模 K8s 集群實踐中，遇到的問題及解決方法詳述
雲原生化最佳組合：Kubernetes+容器+神龍，實現核心系統 100% 上雲的技術細節
雙 11 Service Mesh 超大規模落地解決方案

“阿里巴巴雲原生微信公眾號（ID：Alicloudnative）關注微服務、Serverless、容器、Service Mesh等技術領域、聚焦雲原生流行技術趨勢、雲原生大規模的落地實踐，做最懂雲原生開發者的技術公眾號。”

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 如何更高效地定制你的bootstrap 如何更高效地定制你的bootstrap 揭秘“撩”大數據的正確姿勢：生動示例解說大數據“三駕馬車” [源碼解析]為什么mapPartition比map更高效 pythonic－讓python代碼更高效這款拓展讓你的jupyter lab更高效 Android UI 使用更快更高效多線程- 讓程序更高效的運行向php數組添加元素的方法哪種更高效如何從開發流程層面實現更高效的持續交付