摘要:為了解決現階段大數據存算分離痛點問題,華為雲大數據推出重量級數據湖Catalog服務。
1 背景
隨着5G、IoT等技術的發展,企業積累了越來越多的數據,需要激發更多的數據價值變現。傳統大數據平台從建設到落地的長周期,不利於業務的高速發展;平台建成后,維護、升級、擴容均以集群為單位,管理離散,操作繁重。
眾多用戶采用了華為雲大數據存算分離方案,存算分離解決方案指的是業務數據分離,共享的是數據,元數據不共享,每類引擎單獨映射構建。也正因為元數據不共享,導致現階段大數據存算分離方案存在如下幾點痛點:
- 缺少統一管理視圖:元數據分散,難於統一管理;
- 缺少統一的細粒度權限管理:缺少統一的對數據庫、表、列的權限控制,缺少有效的邏輯及權限隔離;
- 計算資源無法快速擴縮容:計算集群需要考慮元數據的備份和恢復,增加資源成本和運維成本;
2 數據湖Catalog簡介
為了解決現階段大數據存算分離痛點問題,華為雲大數據推出重量級數據湖Catalog服務。
數據湖Catalog是面向多元計算引擎提供統一元數據服務。支持多元計算統一並共享元數據,實現引擎級元數據分離,全湖一張視圖,支持業務靈活訪問,助力存算分離架構升級變遷。數據湖Catalog主要有如下五點關鍵特性:
- 存算分離更專業、簡化;
- 支持多引擎、多集群,靈活易用,性能更高;
- 多維度可靠性保駕護航;
- 細粒度權限管控,訪問共享更安全;
- 支持元數據多版本以及DAG跟蹤和分析;
經過數據湖Catalog加持后,在原有業務數據分離的基礎上,實現引擎級元數據分離,主要有如下三大優勢:
- 統一元數據管理,全湖統一數據資產視圖,多引擎統一可視;
- 元數據多引擎共享,數據無需單獨映射,軟件多版本自由選擇;
- 可靠性:計算與數據完全解耦,集群故障,數據可靠,元數據可靠;
3 數據湖Catalog關鍵特性
下面主要介紹數據湖Catalog五大關鍵特性。
3.1 存算分離更專業、簡化
傳統存算分離解決方案一般指的是業務數據分離,共享的是數據,元數據不共享,每類引擎單獨映射構建。而數據湖Catalog通過統一多集群、多類型計算的元數據管理,實現全湖統一數據資產視圖,多引擎統一可視,數據無需單獨映射,多引擎多版本自由選擇。
- 數據湖Catalog獨立部署,MRS集群釋放不會清理元數據,元數據無需備份和遷移,節約運維管理成本,隨用隨釋放;
- MRS集群可以做不同的業務,所有集群都可以很方便的實現數據共享和數據訪問;
- MRS集群可以真正聚焦業務,根據業務需要進行集群的創建和釋放,真正的可以做到按需創建、用完即釋放,節約資源和運維成本。
3.2 支持多引擎、多集群,靈活易用,性能更高
傳統大數據大多以MetaStore進行元數據管理,以thrift api方式對外提供元數據管理能力,且僅針對Hive生態相關元數據。而數據湖Catalog提供兼容Hive MetaStore API和RESTfull API,支持結構化、非結構化數據源以結構化的模型進行元數據管理助力高層次的協作。
- 兼容Hive MetaStore API,支持Hive生態諸如Hive/Spark/Presto/Impala/Flink等引擎,可以通過簡單的配置即可快速實現數據湖Catalog對接集成;
- 支持華為雲其他雲服務以開放RESTfull API的方式進行對接集成;
- 基於MetaStore內核自底向上逐層優化,性能更高,某客戶場景下性能較開源提升3-5倍;
3.3 多維度可靠性保駕護航
隨着業務快速增長,數據湖Catalog提供了多維度可靠性增強能力,快速滿足客戶業務增長的訴求,為客戶保駕護航。
- 支持跨AZ容災部署、節點故障容錯、特性級故障發現和自愈,為用戶提供了高可用部署架構,極大提升業務的可靠性;
- 支持動態流控、靜態流控、服務降級、接口級熔斷,保障業務平滑應對業務激增;
- 支持公共服務依賴故障放通,當周邊服務異常時,最大程度保證業務連續性;
- 支持豐富的集群監控和告警能力,實時發現系統異常,保障業務穩定運行;
3.4 細粒度權限管控,訪問共享更安全
數據湖Catalog基於華為雲IAM實現細粒度權限管控,將元數據作為資源進行統一權限管理。各雲服務必須相應的權限才可以訪問數據湖Catalog,例如表或分區。
- 支持基於角色的訪問策略,數據湖Catalog對所有元數據的操作均支持基於角色的IAM策略。通過講策略附加到賬戶中的用戶或組,可向其授予數據湖Catalog中創建、訪問或修改數據湖Catalog資源(例如表、分區)的權限。通過將策略附加到IAM角色,用戶可以向其他華為雲賬戶中的IAM角色授予跨賬戶訪問權限;
- 支持使用資源策略控制對數據湖Catalog資源的訪問,這些資源包括數據庫、表、分區和用戶定義的函數,以及與這些資源交互的APIs;
- 支持基於角色或資源的訪問策略跨賬戶授予訪問權限,實現多賬號間元數據的共享和訪問控制。
3.5 支持元數據多版本以及DAG跟蹤和分析
在經典機器學習場景和深度學習場景下,數據類型、數據版本、工程(模型、腳本等)隨時間變化,難以復用,難以監管。數據湖Catalog提供元數據多版本能力,讓AI數據開發項目如同GIT管理代碼一樣管理涉及到的數據和工程模型、腳本。與此同時,數據湖Catalog提供DAG跟蹤和分析能力,可以幫助AI數據開發按照時間線、流水線查看不同時期、不同階段的模型指標以及上下游信息。數據湖Catalog可以幫助極大提升AI數據開發的效率。
4 典型應用場景
4.1 基於MRS構建企業級數據湖大數據處理分析平台
用戶基於華為雲MapReduce服務構建自己的數據湖數據處理分析平台,隨着企業快速發展,集群規模和數據也急劇膨脹,用戶迫切需要完全解耦計算和數據,讓計算資源可以按需使用,集中統一管理不同存儲中的元數據。
數據湖Catalog價值
- 多MRS集群元數據統一管理,避免數據孤島;
- 自底向上逐層優化,性能更高;
- 多維度可靠性保駕護航,更可靠;
- 支持細粒度權限管控,更安全;
4.2 基於ModelArts構建數據湖AI開發平台
大數據是AI的基礎,AI也是大數據的未來。數據湖可以很好的在經典機器學習場景和深度學習場景下服務用戶:經驗和數據靠個人、無管理;難以復用,難以監管;數據類型多,不同團隊用的工具不同,隨時間變化;無數據版本和分支管理;缺乏數據回流機制,需要數據湖具備能夠統一“表”、“數據集”等概念,形成高層次的協作,需要數據湖具備能夠實現元數據統一並借此進行數據版本和分支管理。
數據湖Catalog價值
- 提供多引擎SDK和REST API,方便用戶集成;
- 支持多版本管理,包括數據版本、分支、事務等;
- 支持AI和大數據DAG血緣跟蹤和分析;
- 統一元數據模型,助力異構數據源統一數據服務;
5 總結
數據湖Catalog極大增強MRS服務存算分離方面的能力,讓MRS更聚焦算力,真正能按需創建、用完即釋放,為用戶節約了資源成本和運維管理成本;同時對ModelArts構建數據湖AI開發平台提供企業級經驗和數據復用、異構數據源統一訪問、多版本管理和DAG血緣管理提供了堅實的元數據管理基礎。對於用戶構建企業級數據湖大數據處理分析平台和數據湖AI開發平台,數據湖Catalog將會成為用戶統一元數據管理平台首選。
同時作為一款新的重量級統一元數據管理服務,我們在引擎元數據領域還在持續學習和探索過程中,數據湖Catalog后面會持續從性能優化、可靠性、生態建設、數據價值挖掘多個角度進行優化和改進,包括統計分析、CBO以及擴展應用、AI融合高級特性等。
本文分享自華為雲社區《統一元數據,華為雲MRS 數據湖Catalog重磅推出!》,原文作者:ryanlunar。