簡介: 將企業級存儲和雲的特點進行完美的融合是雲上企業級存儲的目標,它打開存儲更多新的維度,在保障用戶業務永續的同時,幫助用戶更好的進行業務創新。本文屬ESSD技術解讀的總篇,總體介紹ESSD 雲盤創新融合了雲和企業級存儲的特性,以服務為中心,為用戶提供了更便捷、更智能的存儲服務體驗。
前言
提到企業級存儲,大家印象最深的是“高穩定”、“高性能”、“豐富的企業級特性”等關鍵詞;而說到雲計算,大家會想到“大規模”、“全球部署”、“彈性”、“服務化”、“智能化”、“即時開通"、“按量付費”這些鮮明特征。如果把兩者結合,會產生什么樣的新存儲形態呢?雲上企業級存儲的目標就是將企業級存儲和雲的特點進行完美的融合,打開存儲更多新的維度,在保障用戶業務永續的同時,幫助用戶更好的進行業務創新。
ESSD 企業級雲盤
ESSD 雲盤為用戶提供高可用、高可靠、高性能的塊級隨機訪問服務,並提供原生快照數據保護和跨域容災等豐富的企業特性。它於 2016 年啟動項目, 基於盤古 2.0 分布式存儲底座,采用 RDMA 和 NVMe SSD 全用戶態 IO 技術,並結合阿里 10 多年分布式存儲自研技術積累, 在 2017 年首次亮相阿里“雙11”購物節,承載數據庫和中間件等核心業務部分峰值流量,取得了驚艷的表現;於是在 2018 年開始在阿里內部大規模推廣使用,並開始開放給部分外部客戶使用,都取得了非常積極的反饋;在 2019 年 ESSD 雲盤大規模商業化,率先帶領雲盤進入了微秒時代; 2020 年推出普惠型規格 ESSD PL0,讓中小客戶也能獲取 ESSD 全閃技術的紅利;到 2021 年 9 月,ESSD 雲盤已經在 59 個可用區規模售賣, 95% 的阿里雲頭部客戶選擇使用 ESSD, 成為最受歡迎的雲盤產品。
ESSD 雲盤為用戶提供了三大方面的數據服務: 高穩定、高性能、高彈性的數據訪問服務, 輕量、實時、彈性的原生快照數據保護服務,隨時隨地、容災多活服務。
在最基礎的數據訪問方面,ESSD 雲盤提供了 9 個 9 的高可靠和 5 個 9 的高可用,並提供端到端的數據保護,百微秒低延遲和百萬 IOPS,支持自定義密鑰加密、在線擴容和秒級性能變配。並且在近期發布按業務負載性能自動彈性伸縮的 ESSD Auto PL 雲盤,支持 NVMe 標准協議和共享訪問, 以及滿足安全合規物理隔離的專屬集群。
在基礎數據訪問服務之上,ESSD 雲盤還為用戶提供了原生快照服務,幫助用戶更便捷的做好數據保護。它提供靈活的快照策略,並且在快照期間不影響前端 IO 讀寫性能, 能夠秒級完成快照的創建、回滾和克隆,支持多塊雲盤創建一致性組快照和應用一致性快照, 提供快照跨區域復制,並且滿足雲原生和容器場景通過快照大規模批量創建雲盤進行實時訪問的需求。
除了快照數據保護,為了更好滿足用戶多地域容災多活的需求,ESSD 雲盤新推出了異步復制服務,讓用戶“零”門檻起步,利用阿里雲全球部署的基礎設施和網絡專線,實現異地容災架構。未來還會為用戶提供同步復制、跨區多活等更多容災服務。
ESSD 雲盤以服務為中心,結合雲和企業級存儲的特性,構建雲上企業級存儲服務。下面我們選取 ESSD 雲盤最新發布的產品和功能特性,為大家做更詳細的解讀。
ESSD Auto PL 高彈性 IO
ESSD Auto PL 雲盤的推出是為了應對很多用戶面臨的問題:無法准確預估業務峰值,在性能配置上難以做好精准規划。如果性能配置預留過高,會造成日常資源的大量閑置浪費;而如果性能預留不足,業務突發洪峰會造成業務受損。ESSD Auto PL 雲盤希望幫助用戶解決這個困境,它支持性能指定配置的同時,支持按業務負載自動伸縮,單盤性能可以自動提升到最高 100 萬 IOPS,為不可預期的突發訪問提供安全便捷的性能自動配置。在打開自動性能伸縮的情況下,用戶只需按實際發生超出預先配置性能的讀寫次數付費,保障業務穩定運行的同時,最大化節省用戶的資源配置開銷。
1. 通過對集群容量-性能水位的實時監控預測和分鍾級跨集群調度均衡,來滿足用戶大批量雲盤負載同時升高,可能超出單集群性能上限的情況;
2. 通過多級 QoS 隔離和優先級管理,包括硬件卸載的隊列動態分發,IO 打標和執行代價評估重排等方法,避免在多租戶場景下因為彈性提升帶來多租戶間的性能干擾。
通過這些技術,我們希望 ESSD Auto PL 雲盤簡化用戶的性能配置,更好助力用戶平滑度過業務的尖峰時刻。
NVMe 和 共享訪問
隨着閃存技術的迅速發展和普及,存儲介質已經不再是存儲的瓶頸,而介質之上的軟件處理成為最大瓶頸。NVMe 協議是針對高性能設備新推出的數據訪問協議,相比傳統的 SCSI 協議,它更加簡捷輕量,同時提供了豐富的擴展特性。 這次 ESSD 雲盤支持用戶使用 NVMe 協議更高效的訪問數據,同時基於 NVMe Persistent Reservation 標准實現了雲盤共享訪問。
很多主流的商業數據庫比如 Oracle RAC, SAP HANA 等需要使用磁盤共享訪問來實現高可用, NVMe Persistent Reservation 為共享訪問和權限管理提供了安全、輕量的支持,大幅縮短故障切換時間。同時,ESSD 雲盤還利用了硬件卸載技術將 NVMe 虛擬化延遲降低 30%, 並采用自研的 Solar-RDMA 網絡協議支持高效數據傳輸,並能夠秒級完成網絡多路徑的故障切換。
輕量、實時、彈性的原生快照數據保護
ESSD 雲盤提供原生快照為用戶提供便捷的數據保護服務,本次發布除了新增多盤一致性快照組和應用一致性快照外,還對快照體驗進行了極致的升級優化,體現在“輕”、“快”、“彈”三個方面。
“輕”: 在快照創建期間不影響 IO 讀寫性能。很多用戶擔心創建快照影響 IO 性能,只在業務低谷期才進行快照數據保護。我們對分布式快照算法和實現進行了大量優化,讓用戶可以拋開影響性能的顧慮,隨時進行數據保護。從下圖的實測數據可以看到,對 2 塊正在大量寫入的 ESSD 雲盤創建一致性快照時,前台寫入的延遲不變;我們也實測了另外 2 家友商的快照表現,會發現 IO 延遲增加接近 1-3 倍。
“快”: ESSD 雲盤快照可以在秒級內完成創建、回滾和克隆,滿足用戶實時數據保護和 DevOps 快速編排上的需要。
“彈”: 隨着雲原生和容器技術的普及應用,用戶希望能夠在短時間內拉起大量容器 Pod,我們對快照批量克隆雲盤並進行實時數據訪問做了大量優化,能夠讓用戶在分鍾級拉起數千個 Pod 快速啟動運行。
異步復制,跨域容災
數據是企業的核心資產,現實世界總會發生非人力可及的災難,導致數據中心大面積停服,甚至造成數據丟失。數據異地容災是企業級客戶的普適需求,傳統的容災方案往往需要用戶自建容災中心、購買專線、以及投入大量人力運維和測試驗證,投入成本大、周期長。而雲計算服務在全球部署的基礎設施天然為用戶構建了隨時隨地的容災能力。ESSD 雲盤這次推出了異步復制服務,幫助用戶“零”門檻,隨時按需進行跨地域數據容災。
在 ESSD 雲盤異步復制技術設計實現上,我們對雲盤一致性組復制算法做了很多創新優化, 保證主從雲盤組的時序強一致性和多重交叉校驗, 主盤前台讀寫性能無損; 同時在數據傳輸鏈路,確保最小增量數據復制,利用多路並發調度壓縮復制時間周期,並對網絡健康狀況進行實時檢測和切換;用戶在控制台輕點幾下鼠標,即可隨時開通異步復制服務,只需按實際使用量來付費。
ESSD 專屬集群
部分雲上用戶希望對數據實施物理隔離以滿足行業規范需要, ESSD 專屬集群既能讓用戶享有雲上的統一運維和軟硬件持續迭代的優勢,又可以獨占集群滿足物理資源隔離和定制化的需要。
全新一代高性能 ESSD PL-X 雲盤
ESSD 的高性能和豐富企業特性得到很多用戶的喜愛,我們也從和用戶的互動交流中學習很多,不斷打磨迭代來帶給用戶更好的雲盤體驗。很多用戶都反饋希望 ESSD 在性能方面能更進一步,能夠滿足他們最苛刻性能場景的需求。我們也一直朝這個方向努力,這里提前給大家帶來一個好消息,全新一代的高性能 ESSD PL-X 雲盤即將發布邀測。
ESSD PL-X 雲盤相比之前性能最強的 ESSD PL-3 雲盤,4K 數據寫端到端延遲降低 70%,只有 30 us; IOPS 提升 3 倍,最高達到 300 萬; 而吞吐從 4GB/s 提升到 15GB/s。 相比其他友商的高性能雲盤, ESSD PL-X 性能對比優勢更加明顯。
從我們當前的 FIO 實測數據看,ESSD PL-X 雲盤 4K 單路寫端到端延遲只有 25.44 微秒, 這個延遲分解下來: 主機端虛擬化延遲 10.6 us,RDMA 網絡傳輸 13us, 存儲后端處理僅 1.8 us。
總結
ESSD 雲盤創新融合了雲和企業級存儲的特性,為用戶提供了更便捷、更智能的存儲服務體驗。我們相信,未來存儲不再是大家印象中的笨重的“鐵盒子”,雲上企業級存儲以服務為中心,打開存儲更多維度,讓存儲變得更加柔性和智能。ESSD 雲盤新的產品功能發布朝這個方向邁出了一大步,“穩定安全高性能,普惠智能新存儲”,我們在路上!
原文鏈接
本文為阿里雲原創內容,未經允許不得轉載。