詳解數據中台的底層架構邏輯


 

數據中台到底是什么,幾年過去了,也一直眾說紛紜。

筆者認為數據中台不應該是一個單純的系統或者是一個軟件工具,而應該是一套架構、一套數據流轉模式。

數據中台需要采集數據作為原材料進行數據加工、數據建模,然后分門別類地儲存,再根據實際的業 務場景,打造各類數據服務(含數據應用平台)從而實現對業務的賦能加速。

但以上流程的實現,需要有對應的系統與產品作為支撐,那么基礎的數據中台到底應該由哪些系統或者產品組成?

這里我們可以先來看一下幾個企業的數據中台架構。

圖片

 

圖片

可以看出,雖然每個企業由於自身業務的不同,衍生出來的數據中台體系都有所不同,但大的架構方面是基本統一的,都需要通過一個“數據采集接入”-“加工存儲”-“統一管理”-“服務應用”的階段。

這里筆者認為《數據中台產品經理:從數據體系到數據平台實戰》一書中總結的數據中台架構是比較具有普適性的, 不論是互聯網行業、還是傳統行業,都可以在該架構上進行改造,設計建設自己的中台架構。

總體來說數據中台的功能架構由大數據平台、數據資產管理平台與數據服務平台三大部分組成,其中在數據服務平台中自助分析平台與標簽管理系統的應用場景最為廣泛。

圖片

1、大數據平台

大數據平台是數據中台的基座,我們也可以把大數據平台稱為大數據開發平台,它需要具備與大數據相關的開發能力,提供數據存儲、數據清洗/計算、數據查詢展示及權限管理等功能。那么,應該如何建設上述功能與服務?是不是擁有了上述能力就等同於成功打造大數據平台了呢?

其實我們可以發現各公司的大數據平台系統架構其實大同小異,各類架構都包含了數據采集組件、數據存儲組件、數據計算引擎、數據權限與安全組件,以及集群管理與監控組件等。

除了少數像阿里這樣傾力打造自研“飛天”系統的企業,其他企業在底層組件選用上,還是以 Hadoop 生態構建的技術體系為主,依托各類開源組件進行優化改進與二次開發。例如,數據存儲組件可以選擇HBase、Hive等組件,數據計算引擎可以選擇Spark、Flink等分布式計算引擎。

既然大家選用的組件相同或者相似,那為什么最終各企業大數據平台的服務能力還是存在差距呢?這有些類似於購買零件組裝台式電腦,零件不需要選最貴的,而是要根據實際需求來選擇最適合的。

好用的大數據平台需要擁有為用戶解決問題的能力。因此,數據中台的大數據平台建設不是比拼引用了多少新技術、覆蓋了多少技術組件,而是要看它能否解決數據中台建設中所面臨的復雜數據現狀,能否成為數據中台打破數據壁壘的技術保障,能否提供簡潔有效的數據處理工具,如提供自助配置式的數據采集與數據清洗工具等,以及能否提供更多的附加價值。

數據中台的大數據平台建設,可以避免各事業部技術團隊各自搭建大數據集群所帶來的資源浪費。統一的、成熟的大數據平台對企業來說,不能一蹴而就,需要循序漸進、分步實施,在持續迭代中構建企業的大數據平台生態。

2、數據資產管理平台

數據資產管理平台主要解決數據資源的管理, 數據資產遍布在各個大數據組件中, 有 hive 的表, 有 hbase 的表, 有 druid 的 datasource, 有 kafka 中的流, 各個組件的管控系統很難互相打通, 所以需要一個統一的數據資產管理服務, 來統籌大數據資源的管理。

隨着大數據平台的建設,構建數據中台的數據體系成為可能,通過對各業務線數據的歸類整合,我們可以構建出各個數據主題域,完成數據的規范存儲,形成數據資產,進而完成數據資產管理。

在數據中台體系中,數據資產管理平台主要由元數據管理與數據模型管理組成,下面讓我們分別了解一下。

  • 元數據管理

講述元數據管理,我們需要先弄清楚什么是元數據。

元數據(MetaData)通常被定義為:關於數據的數據(Metadata),或者描述數據的數據(data about data),對數據及信息資源的描述性信息。元數據是所有數據中最重要的數據。

這里舉一個最通俗的例子。當我們去圖書館借書時,直接面對數以萬計的圖書,自然難以尋找,但是你通過在圖書館查詢系統中輸入這本的書名、作者、出版社等信息,獲取就能准確的圖書位置。那么這些書名、作者等信息,就可以理解為元數據,而圖書的存放位置、借閱歷史記錄等,則是我們系統中的普通數據。

在數據庫中,每一張數據表的表名、創建信息(創建人、創建時間、所屬部門)、修改信息、表字段(字段名、字段類型、字段長度等),以及該表與其他表之間的關系等信息都屬於這張數據表的元數據。

其實,元數據有多種分類方式,筆者更傾向於按照元數據的用途來區分,總共分為三類:業務元數據、技術元數據和管理元數據。

►業務元數據:描述數據的業務含義、業務規則等,包括業務規則、數據字典以及安全標准等多項內容。通過明確業務元數據,讓人們產生統一的數據認知,消除數據歧義,讓不懂數據庫的業務方讀懂數據表的內容。

►技術元數據:描述數據源信息、數據流轉信息及數據結構化信息,主要服務於數據開發人員,讓開發人員明晰數據表結構與所依賴的上下游任務,主要包括庫表字段(存儲位置、數據庫表、字段長度和類型)、數據模型、ETL腳本(調度信息)與SQL腳本等。

►管理元數據:描述數據的管理歸屬信息,包括業務歸屬、系統歸屬、運維歸屬以及數據權限歸屬等信息,是數據安全管理的基礎。

所以有人說,元數據記錄了數據從無到有的全過程,就像一本有關數據的“字典”,讓我們可以查詢到每一個字段的含義與出處,同時它又像是一張“地圖”,讓我們可以追溯數據產生的路徑。

通過對數據體系的建設,數據中台的元數據匯聚了企業各業務線與各系統的數據信息,讓數據中台具備了提供全域數據資產視圖的能力,實現了統一數據資產查詢與獲取入口的目標。

元數據管理包括對元數據增刪與編輯管理、版本管理、元數據統計分析與元模型管理。通過上述功能模塊,有計划地進行數據體系的落地實施,實現數據中台元數據的結構化與模型化,這樣既可以避免元數據出現雜亂與冗余的現象,也便於用戶查詢與定位數據。

  • 數據模型管理

介紹元數據時,我們提到技術元數據中包括數據模型,這里的數據模型就是指使用元數據進行數據建模的工作產物。

根據底層數據的使用情況,如數據表的關聯信息、SQL腳本信息(數據聚合與查詢信息等),來獲取元數據,可以更好地完成對業務的抽象,提高建模效率。

數據模型是數據整合的有效手段,它完成了各數據源之間的映射關系設計,為數據主題建設提供了“實施圖紙”。

同時,在數據建模過程中,通過明確數據標准,可以確保數據的一致性,還可以消化冗余數據。

至於數據模型管理,其是指在數據建模過程中,通過既定的數據模型管理制度,實現對數據模型增、刪、改、查的管理,同時遵守數據標准化與數據統一化的要求,確保數據質量。

3、數據服務平台

  • 自助分析平台

自助分析平台,也就是商業智能平台(BI平台)。BI平台目前已經是很多企業的標配,目前BI商用市場的行業競爭日趨激烈,進場者可以分為如下3類:

►國內BI廠商,典型代表為連續多年國內市場占有率第一的帆軟

►國外BI廠商,如Tableau

►互聯網大廠內部孵化

BI 平台是數據中台服務能力的主要輸出方,要想讓數據中台發揮出應有價值,那么BI平台的建設必不可少,所以需要將BI 平台建設划分在數據中台體系下。綜合來看,BI平台應該具備如下能力。

(1)數據接入

除了數據中台的自有數據源,BI平台還需要支持外部數據源的接入。其接入方式,主要有如下3種。

►文件型:支持Excel等文件數據的上傳。

►數據連接型:支持Mysql、Oracle等數據庫,以及Hadoop、Spark等大數據平台(數據中台的大數據平台也在此列)。

►API讀取:支持通過API獲取第三方系統數據。

圖片

圖例:帆軟BI平台支持的數據源 

(2)數據處理

BI 平台需要能為用戶提供數據建模工具,幫助用戶創建目標數據(數據集),其提供的功能包括拖拽表字段、自動識別維度/指標、自定義視圖語句、預覽數據、設置虛擬字段、函數計算、設置參數等基本操作,以及多源異構的 JOIN/UNION等數據處理功能。

圖片

FineBI自助數據集數據處理界面

(3)數據分析與可視化

在數據處理的基礎上,BI 平台還需要為用戶提供豐富的圖表制作和聯機分析處理(OLAP)操作,讓用戶在前端頁面完成數據分析與數據可視化等工作。

其操作流程如下:用戶選擇處理后的數據集,對維度與指標進行篩選過濾,然后通過上卷下鑽、圖表聯動、報表跳轉等操作,完成業務需求的分析,同時BI平台會為用戶提供可視化圖形組件,使其最終完成可視化內容的設計。

圖片

(4)內容分發與基礎服務

BI平台需要具備分發可視化內容,並進行查看權限與數據權限控制的能力。主要的分發方式包括BI平台、移動BI(App)、數據大屏、郵件、鏈接訪問,以及第三方嵌入等方式。

同時BI平台還需要具備基礎的運營管理、角色管理、幫助中心與消息推送等功能。

只有滿足以上功能、具備了多維分析、數據可視化與數據大屏等服務能力的BI平台,才可以最大限度的發揮在數據中台體系中的價值,有效地幫助分析師與運營團隊提升工作效率。

  • 標簽管理系統

除了BI平台,標簽管理系統也是數據服務的重要應用方向之一。目前,業務部門面臨着大量的精准營銷場景,這些千人千面的推薦、推送需要基於一個完善且准確的用戶畫像來實現,而用戶畫像的構成又需要由大量、全面的用戶標簽來支撐。

因此,標簽數據作為個性化業務應用的基礎數據,其可信度與有效性就成了衡量用戶畫像成熟度的關鍵指標。

我們可以把標簽管理系統看作用戶畫像系統的基座,基於數據中台打造的數據體系,可以順其自然地打通標簽治理中的數據壁壘,構建企業級的、統一認可的用戶標簽體系,並由此打造一個企業級的用戶畫像系統。

數據中台的標簽管理系統,主要具備以下功能。

(1)用戶唯一性識別

很多企業內各業務線都有自己的獨立用戶識別體系,如在 58 集團內就有 58設備指紋、安居客唯一用戶、招聘自然人、金融自然人等多種用戶識別方式,但是這些識別方式大部分是服務於單一業務線的,各業務線內的標簽也是面向本業務的獨立用戶標識進行研發的。

數據中台的標簽管理體系,可以提供統一的用戶識別服務,將各業務線的獨立用戶標識進行關聯和統一,從而打通面向整個企業的獨立用戶識別和標簽交互轉換方案。

(2)標簽體系管理

標簽體系管理的主要工作是制訂標簽數據和信息交互方案,打通用戶畫像研發和服務中的信息及數據壁壘,提供標簽接入、可視化標簽信息展現、可視化標簽權限控制、可視化用戶標簽分析、可視化人群定向提取與可視化相似人群擴展(Lookalike)等功能。

(3)標簽數據服務

標簽管理系統,需要提供用戶畫像研發和應用過程中涉及的標簽提取與查詢等服務,以標准化服務接口(API)的方式將相關解決方案提供給各業務方,支持業務方基於數據中台的能力,打造業務線的個性化服務。

除了商業智能BI和標簽管理外,各企業還需根據自身所處行業的特性去進行數據應用價值的最大化挖掘。

參考文檔:

  1. 最強最全面的數倉建設規范指南

  2. 美團數據平台及數倉建設實踐,超十萬字總結

  3. 五萬字 | 耗時一個月整理出這份Hadoop吐血寶典

  4. 數倉建設保姆級教程PDF文檔

  5. 最強最全面的大數據SQL經典面試題完整PDF版


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM