談談數據中台技術體系


昀哥 20191109

我們做大數據很早,2011年、2012年就開始了,到現在基本形成了一整套完整的數據中台體系。大數據基本為這三件事服務:

1.決策依據和經營分析

2.運營調度

3.外部機構盡職調查和穿刺

各個公司各條業務線對數據高度敏感,尤其是打仗(有仗打仗,沒仗造仗)的時候基本上是實時調度,加之公司多,數據來源多,機房多,交易量大(每日1000+萬),實時性要求高,所以需要一套行之有效的數據中台來支撐。

 

首先,我們把大數據技術領域划分為六塊,如下圖所示。

  1. 元數據管理:分為技術元數據業務元數據。技術元數據描述數據倉庫技術細節。業務元數據從商業和業務的角度描述數據倉庫中的數據,使業務人員更好地、全面地理解數據倉庫中分析出來的數據。其中最經典的場景就是血緣(動態)分析。

  2. 協作調度:不管是離線計算,還是實時計算,都需要一套調度和管理系統來幫助數據倉庫工程師平滑地完成測試環境、生產環境的計算任務的打包、提交、測試、核驗數據和發布。

  3. 自助分析:也可以叫即席查詢。具有一定經驗的運營人員或數據分析師可以利用自助BI系統完成數據提取、數據分析和展示,所見即所得。

  4. 數據可視化:指的是預先通過可視化系統配置好的各種監控大屏和經營分析報表。

  5. 運維監控告警:對集群組件安裝和升級,對數據遷移,對集群運轉情況,需要有一個能讓運維人員和數據倉庫工程師解脫出來的解決方案。

  6. 數據資產管理(含數據質量):在元數據管理基礎之上,第一層需要數據質量保障,即有一套明確的保障機制,對生產出來的數據做校驗,確保數據無誤,否則就要找到數據失真的原因並告警。第二層是梳理盤點數據資產,准確計量數據資產,准確掌握數據資產的開放情況,形成治理閉環。

 

其次,我們的數據中台在最近兩年發展得更有體系了,這與公司裂變、業務規模激增引發的,當然也跟我們高屋建瓴、高舉高打分不開。

如果分層來划分的話,可以把工作成果分為業務交付和過程管控兩啪,如下圖所示。

簡單做一個系統概述和技術棧說明:

業務交付:

-自助報表:自窩窩以來我們就有一套向導式的報表自助配置系統,絕大多數經營分析報表(一般是T+1數據匯總和明細)都是這么配置出來的,有匯總有明細有圖有表有篩選有排序有導出。

-數屏:一種高逼格數據應用,它的目標是通過圖形化界面快速搭建可視化監控大屏,數屏可以提供豐富的可視化數據組件,滿足業務監控、會議展覽、投資咨詢等多種業務的展示需求,尤其要滿足PC瀏覽器或者手機瀏覽器訪問下的自適應布局。

-數據開放實驗室:一種即席查詢和自助分析系統,它的目標是將我們收集到的各種數據,授權下游企業使用,通過即席查詢定義API,通過API獲取數據,並進一步做可視化分析,制作報表。它的用戶既有企業內部用戶,也有企業外部用戶。

-天演:不懂SQL或是數據庫結構的非技術人員,讓他們能自由地上傳臨時數據、關聯授權數據、探索數據,回答自己的問題,建立自己的個人數據工作台,有圖有表能下鑽,從宏觀到微觀。也因此數據查詢交互速度要足夠快,選Druid,杠杠的。

過程管控:

-魔盒:既然業務開發有研發協作平台、數據庫自動化運維平台和運維自動化平台,那么大數據開發也肯定需要有一個協作平台。所謂協作平台,指的是圍繞着四個核心概念(資源,數據,流程,操作)構建一個體系(資源能看見,流程能流轉,數據能共享,操作有記錄),流程驅動數據和資源,操作可視化和可追蹤,形成閉環。底層實際是Azkaban。

-移山:異構數據源之間的數據遷移自動化平台,它旨在解決第三方數據接入、實時數據(單向/雙向)同步、大數據集群間的數據遷移等問題。本質上是Canal和Kafka。

-磐石:基於Ambari的運維監控告警系統。

-能量塊:元數據管理系統。

 

數據中台在整個大中台的位置如下圖所示。

上面這套大中台體系,我們已經運轉自如,大勢已成。

-EOF-

 

歡迎關注公眾號:老兵筆記

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM