華為雲FusionInsight MRS:千余節點滾動升級業務無中斷


摘要:滾動升級作為大集群數據底座的必備能力,能夠完美解決了傳統大數據平台操作繁瑣、業務停機、升級成本高等問題,實現一個架構的持續演進,業務無中斷。

華為開發者大會2021(Cloud)大會期間,由華為技術專家天團打造的《名師大講堂》系列專題演講,圍繞雲原生、大數據、人工智能等話題,探討技術創新帶來的價值,分享創新實踐。其中,華為雲FusionInsight解決方案架構師許田立,分享了“千級節點的大數據集群如何無業務中斷升級”主題。

華為雲FusionInsight解決方案架構師許田立演講照片

數據量激增,可持續發展的數據底座尤為重要

隨着5G、IoT技術的飛速發展,數據已成為重要的戰略資源。據預測未來4年數據量將激增4倍+,達180ZB,到35年呈50倍增長。同時,數據作為繼土地、資本、技術、勞動力的第5種生產要素,已是數字經濟發展的重要要素。但相關調查結果顯示,企業運營中僅56%的數據被存儲,僅32%的數據被利用。為應對呈指數級增長的數據資產,挖掘海量數據價值,政企客戶采用大規模數據底座的需求越來越迫切。

眾所周知,企業早期業務較小,各業務從數據集成到數據應用,系統自建,煙囪林立,伴隨業務飛速發展,數據不統一、數據融合分析難、開發維護成本高等問題日益凸顯,煙囪式的數據體系演進達到瓶頸。

為突破以上瓶頸,挖掘數據價值,驅動業務增長,傳統煙囪式數據體系向統一數據湖架構演進,實現一致的數據清潔,做到同名同義,統一數據標准;通過一套技術架構減少維護成本;采用樂高積木式的指標體系,提升開發效率;拉通數據實現跨域融合分析,帶來更多的業務創新。

立足於長遠,大集群的數據湖架構不僅需滿足當下,更應具備可持續演進的能力。

從技術角度來看,大數據開源、開放技術仍在蓬勃發展,以前,駕馭大數據“三駕馬車”可轉遍大數據的池塘,現如今,大數據技術已發展成一片海洋,社區已具有100+開源項目,大數據技術創新進入深水區。現在大數據不僅限於Hadoop生態,已是多種主流數據處理技術的集合,在不同場景有着豐富的組件進行支撐。華為雲大數據技術與世界同步,積極擁抱開源,汲取全球頂尖大數據實踐經驗。

從業務角度來看,大數據平台承載了海量數據各業務分析場景,其中更涉及多個關鍵業務,如運營商的對內收入稽核、對外廣告精准投放,金融領域的反欺詐、精准營銷等場景,服務連續性要求高,7*24小時不中斷;如何讓大數據平台軟件保持最新保本,實現最優的平台參數,達到最快的問題解決速度?這些都對平台運維部門提出了極高的要求。

為了保持業務的連續性和技術引領,一個超大規模、高效率、可持續發展的數據底座顯得尤為重要,而不中斷業務的滾動升級能力則成為其中的必備能力。

滾動升級實現架構平滑演進,業務無中斷

華為雲FusionInsight MRS雲原生數據湖提供超大規模集群,支持單集群2萬+節點規模,並可聯邦無限擴容,同時,從500+節點集群的標配開始,華為雲FusionInsight MRS雲原生數據湖已提供滾動升級能力,截止目前升級成功率為100%。

當然,滾動升級的成功並不是一蹴而就的,在其升級過程中也將面臨如下挑戰:

  • 無處不在的兼容性:HDFS作為一個分布式架構組件,涉及的跨進程的接口眾多,在中間狀態,涉及到新老版本交互的場景眾多,每一種組合都存在兼容性問題;
  • 可靠性:集群規模達到一定數量后,集群升級歷時需數天,升級過程中需要應對各種突發事件,例如硬件的磁盤故障、網絡擁塞等各種異常場景,面臨這些挑戰需要確保升級進度不受影響;
  • 業務無中斷:大數據平台承載企業多場景應用,升級過程中,關鍵業務不允許中斷。

為了保障大集群升級過程的平滑,華為雲FusionInsight MRS雲原生數據湖團隊提供了升級管理可視化服務工具,可以端到端分步驟的完成滾動升級,實現升級過程中的可視化控制和管理,並應對上述挑戰,主要做了如下處理:

  • 在接口中增加版本號,新版本客戶端帶上版本號標識;服務端提供兩種RPC實現入口,在入口處進行消息格式不兼容的預處理,解決接口兼容性問題;面對社區大版本變更導致的不兼容問題,通過多版本並存的方式,解決滾動升級對業務的影響;
  • 為快速處理升級過程中出現的硬件故障,提供了故障節點隔離能力,在故障發生時,可以跳過該節點的升級動作,使得故障處理和升級可以有序進行;
  • 為降低在升級過程中對關鍵任務SLA的影響,提供了滾動升級暫停的能力,關鍵作業或者作業高峰時段,無論是同一批次內還是多批次間,都可暫停升級動作,保障關鍵任務平穩執行。

滾動升級不僅是一個升級動作,更是一個系統工程,華為雲FusionInsight MRS雲原生數據湖從兼容性、可靠性、工具自動化、保障團隊等多方面入手,注重細節,通過滾動升級助力政企客戶平台架構平滑演進。

工商銀行實現首個金融行業1000+大集群滾動升級成功

工行大數據平台的Hadoop批量集群已超過1000節點,日均處理作業10萬+,數據存儲數十PB,承載了全行重點批量作業,其中包括反欺詐、精准營銷等多個重要業務場景,服務連續性需求較高。而大數據技術迭代快,傳統升級方式需斷電、重啟等操作,升級操作復雜,影響現網業務運行,且大集群升級耗時長,突發故障易中斷升級動作。

大數據技術快速發展,為滿足業務變化發展需求,工行采用了華為雲FusionInsight MRS 滾動升級方案,借助於大數據核心組件的高可用機制, MRS按照依賴層次,多層次並行,在不影響集群整體業務的情況下,一次升級/重啟少量節點,依據組件和實例的依賴關系,自動編排升級批次。升級過程中,隔離故障節點,待升級完成后,再進行故障處理。循環滾動,直至集群所有節點升級到新版本。

通過華為雲FusionInsight滾動升級能力,實現大集群分批次滾動升級,業務0中斷;故障節點隔離功能確保升級動作的穩定運行,實現7*24小時不間斷服務;1000+精細化運維指標及可視化操作簡化運維,實現一個架構持續演進。

結語

滾動升級作為大集群數據底座的必備能力,完美解決了傳統大數據平台操作繁瑣、業務停機、升級成本高等問題,實現一個架構的持續演進,業務無中斷。同時,華為雲FusionInsight MRS雲原生數據湖還將持續創新,做大數字世界黑土地,攜手800+ISV為客戶提供持續演進的湖倉一體解決方案,可以在一個架構上實現離線數據湖、實時數據湖、邏輯數據湖,在千行百業構築“一企一湖,一城一湖”。

 本文分享自華為雲社區《華為雲FusionInsight MRS如何實現千余節點滾動升級無業務中斷升級》,原文作者:沙漏。

點擊關注,第一時間了解華為雲新鮮技術~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM