dataworks的核心能力


dataworks可以幫助企業完成 數據集成、數據開發、數據治理、數據服務,將大數據全生命周期管理整合到一條完整鏈路中。

(一)一條數據開發鏈路

首先滿足企業數據打通的需求。DataWorks 數據集成能夠在復雜網絡條件下,打通 各個異構數據源的傳輸通道,實現近 50 種異構數據源的離線/實時的同步,且支持線下 數據庫批量同步到雲上,提高數據上雲效率,讓企業更好地邁出大數據建設的“第一步”。

其次,DataWorks 底層對接了 MaxCompute、E-MapReduce、CDH、Hologres、 AnalyticDB、實時計算 Flink 版等大數據引擎,讓多種計算引擎的數據開發治理工作都可 以在同一個平台一站式的完成。在 DataWorks 上,開發人員可以通過 DAG 圖拖拽節點 的方式開發數據節點,按照企業業務流程設計編排數據任務節點依賴關系,對數據進行 一站式地抽取、處理、轉換后產出業務所需的結果表。

開發好的任務可以發布到運維中心定時自動調度運行,DataWorks 強大的任務調度 能力可以提供每日千萬級的大規模、周期性任務的調度,經歷多年“雙 11”千萬級調度 考驗,能夠滿足企業數據任務穩定產出的需求,保障數據生產的時效性與穩定性。在任 務運維上,DataWorks 提供了數據發現、數據安全、數據質量、智能監控、資源優化等 豐富的功能,可以很大程度上降低企業任務運維的難度和成本。

最后,大數據平台加工好的數據集可以無縫對接到機器學習平台中進行 AI 訓練與在 線預測服務,也可以通過數據服務以 API 形式零代碼實現數據分享,在保證安全的情況 下,去進行不同部門或者不同業務、不同應用間的數據共享,支撐 BI、大屏等各類數據 應用,而“低代碼化”的數據分析和數據服務化工具可以幫助業務人員快速從數據中獲 得商業洞察。

(二)一套數據標准架構

對於企業而言,數據絕不是簡單地堆積在一起,阿里巴巴通過數據中台建設,規范 了集團統一的數據標准架構,將數據進行清晰的結構分層,每一層又有明確的范圍與邊 界。在貼源層,企業將完成全域數據的匯聚,保留所有的原始數據。在整合層,企業通 過數據標准、數據建模等方式確立數據的規范體系。在匯總層,企業將基於業務需求對 數據進行匯總加工,提煉公共的數據指標。在應用層,面向前台業務應用構建數據集市, 為應用提供源源不斷的高質量數據服務。這一套架構本身不具備產品化能力,但企業可 以基於 DataWorks,快速復制這套數據標准架構。

(三)一套數據治理體系

企業如何管理數據資產?如何保障數據質量?如何保障數據安全?如何有效地控制 成本以及減少不必要浪費?這些問題都對數據治理提出了更高的要求。正常來講,各類 數據治理工作通過人工的方式其實也能夠完成,但是阿里巴巴現在每天處理 EB 級的數 據,每天調度的任務數在千萬級,很難想象靠人工來完成所有的治理工作。DataWorks 將阿里巴巴十多年數據治理的實踐沉淀成產品化能力,完整覆蓋模型設計、數據質量管 理、元數據管理、安全管理等貫穿數據加工處理和使用的全鏈路所需的治理能力。一個 平台,就具備一套完整的體系化的能力。

此外,DataWorks 數據建模產品能力,可以讓企業從業務視角進行數倉規划、數據 標准定義、維度建模和數據指標設計,用規范化的“圖紙”指導大數據“建設”工作, 提升企業數據中台建設的規范性和標准性,大大降低企業數據中台建設門檻和成本。 DataWorks 將持續加大與生態伙伴合作,推出具備不同行業屬性和不同建模方法的數據 建模類產品,以支撐不同行業不同場景的數倉模型設計。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM