2019是數據中台的元年,但是數據中台為啥突然火了?
數據中台被譽為大數據的下一站,由阿里興起,核心思想是數據共享,並在 2018 年因為“騰訊數據中台論”再度成為了人們談論的焦點。在 3 月 15 日 ThoughtWorks 技術雷達峰會上,關於數據中台的話題也獲得了眾多參會者的熱烈關注。
數據中台的概念是最早由阿里巴巴首次提出,是為了應對像雙十一這樣的業務高峰、應對大規模數據的線性可擴展問題、應對復雜業務系統的解耦問題,而在技術、組織架構等方面采取的一些變革,其本質上還是一個平台,阿里稱之為“共享服務平台(Shared Platform as Service,SPAS)”。SPAS采用的是基於面向服務的架構SOA理念的 “去中心化”的服務架構,所有的服務都是以“點對點”的方式進行交互。阿里之所以選擇“去中心化”的分布式服務架構,主要是考慮到擴展性。
數據中台是指通過數據技術,對海量數據進行采集、計算、存儲、加工,同時統一標准和口徑。
數據中台把數據統一之后,會形成標准數據,再進行存儲,形成大數據資產層,進而為客戶提供高效服務。這些服務跟企業的業務有較強的關聯性,是這個企業獨有的且能復用的,它是企業業務和數據的沉淀,其不僅能降低重復建設、減少煙囪式協作的成本,也是差異化競爭優勢所在。
數據中台建設的基礎還是數據倉庫和數據中心,並且在數倉模型的設計上也是一脈傳承,之所以我們現在處處推崇數據中台建設及應用,一個是因為數據中台確實有過人之處,另一個是這套模型在阿里體現了巨大的應用價值。
數據中台跟之前大數據平台最大的區別,在於數據中台距離業務更近,能更快速地響應業務和應用開發的需求,可追溯,更精准。
數據中台最核心的是OneData體系。這個體系實質上是一個數據管理體系,包括全局數據倉庫規划、數據規范定義、數據建模研發、數據連接萃取、數據運維監控、數據資產管理工具等。數據倉庫是為企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合,出於分析性報告和決策支持目的而創建。
數據中台是一個數據集成平台,它不僅僅是為數據分析挖掘而建,它更重要的功能是作為各個業務的數據源,為業務系統提供數據和計算服務。數據中台的本質就是“數據倉庫+數據服務中間件”。中台構建這種服務時是考慮到可復用性的,每個服務就像一塊積木,可以隨意組合,非常靈活,有些個性化的需求在前台解決,這樣就避免了重復建設,既省時、省力,又省錢。
數據中台是建立在分布式計算平台和存儲平台,理論上可以無限擴充平台的計算和存儲能力。而多數的傳統數倉工具都是建立的單機的基礎上,一旦數據量變大,會受單機容量的限制。
數據中台構成
“數據中台”一般包含以下幾個部分:
- 數據倉庫:用來存儲數據的,結構性數據、非結構性數據等,還有離線數據和實時數據等;
- 大數據中間件:包含了大數據計算服務、大數據研發套件、數據分析及展現工具;
- 數據資產管理:按照阿里的體系應該分為垂直數據、公共數據和萃取數據3層;
數據中台解決的問題可以總結為如下三點:
- 效率問題:為什么應用開發增加一個報表,就要十幾天時間?為什么不能實時獲得用戶推薦清單?當業務人員對數據產生一點疑問的時候,需要花費很長的時間,結果發現是數據源的數據變了,最終影響上線時間。
- 協作問題:當業務應用開發的時候,雖然和別的項目需求大致差不多,但因為是別的項目組維護的,所以數據還是要自己再開發一遍。
- 能力問題:數據的處理和維護是一個相對獨立的技術,需要相當專業的人來完成,但是很多時候,我們有一大把的應用開發人員,而數據開發人員很少。
這三類問題都會導致應用開發團隊變慢。這就是中台的關鍵——讓前台開發團隊的開發速度不受后台數據開發的影響。
數據中台的出現,解決的是數據存儲、連通和使用中所遇到的種種問題,如數據孤島、數據治理、數據共享等等。
通過打通多源異構數據,統一治理、管理企業數據,數據中台可以讓數據高效可用,為企業業務提供支持、為客戶提供高效服務。
與傳統數據庫相比,數據中台還有一個重要的優點:提升人及其組織的生產效率。
數據中台最初誕生的初衷是解決組織膨脹所造成的效率下降問題。具體業務的開展需要技術、產品、市場等各個方面的支持,對於大型公司來說,這些基礎支持工作會有很大程度上的重復。部門內部、部門間的協調頗為耗費精力,不僅信息無法共享,資源也會被浪費。
一個數據全面、技術能力過硬、可以統一調用的數據中台,能夠為業務線提供統一支持,同時幫助企業精簡業務團隊配置,實現「扁平化」。管理效率和組織運作效率都可以得到提升,業務也更敏捷靈活。
Data API 是數據中台的核心,它是連接前台和后台的橋梁,通過 API 的方式提供數據服務,而不是直接把數據庫給前台、讓前台開發自行使用數據。
數據處理需求的演進歷程
數據中台的核心理念在於“數據取之於業務,用之於業務”,即它相比於數據平台注重的是對業務的積累和沉淀,構建了從數據生產到消費,消費后產生的數據再回流到生產流程的閉環過程。
數據中台和數據倉庫、數據平台的關鍵區別
概括地說,三者的關鍵區別有以下幾方面:
- 數據中台是企業級的邏輯概念,體現企業 D2V(Data to Value)的能力,為業務提供服務的主要方式是數據 API;
- 數據倉庫是一個相對具體的功能概念,是存儲和管理一個或多個主題數據的集合,為業務提供服務的方式主要是分析報表;
- 數據平台是在大數據基礎上出現的融合了結構化和非結構化數據的數據基礎平台,為業務提供服務的方式主要是直接提供數據集;
- 數據中台距離業務更近,為業務提供速度更快的服務;
- 數據倉庫是為了支持管理決策分析,而數據中台則是將數據服務化之后提供給業務系統,不僅限於分析型場景,也適用於交易型場景;
- 數據中台可以建立在數據倉庫和數據平台之上,是加速企業從數據到業務價值的過程的中間層。
數據倉庫具有歷史性,其中存儲的數據大多是結構化數據,這些數據並非企業全量數據,而是根據需求針對性抽取的,因此數據倉庫對於業務的價值是各種各樣的報表,但這些報表又無法實時產生。數據倉庫報表雖然能夠提供部分業務價值,但不能直接影響業務。
數據平台的出現是為了解決數據倉庫不能處理非結構化數據和報表開發周期長的問題,所以先撇開業務需求、把企業所有的數據都抽取出來放到一起,成為一個大的數據集,其中有結構化數據、非結構化數據等。當業務方有需求的時候,再把他們需要的若干個小數據集單獨提取出來,以數據集的形式提供給數據應用。
而數據中台是在數據倉庫和數據平台的基礎上,將數據生產為為一個個數據 API 服務,以更高效的方式提供給業務。
數據中台優勢:
- 靈活,隨意組合
- 避免重復建設
- 通用業務能力沉淀,前台減負
- 統一服務接口,提升運營效率
建設數據中台的挑戰及應對策略
數據中台建設面臨的挑戰包括:
- 梳理業務場景:搞清楚數據中台如何對業務產生價值。
- 建設數據中台的優先級策略:需求可能大而全,但我們不能直接建大而全的數據中台,應該根據業務重要性來排需求的優先級。
- 數據治理問題:和業務獨立開的數據治理少有成功的,大的數據標准要有(數據資產目錄),通過數據資產目錄將共有的緯度、共性的業務模型提煉出來,在此基礎之上數據治理需要跟業務場景緊密結合。
數據中台團隊和技術選型
數據中台團隊通常需要包含以下角色:
- 業務專家團隊:了解業務、梳理業務場景,確定數據資產與業務場景的一一對應關系,確定業務場景的優先級,為數據中台的建設提供依據。
- 數據工程團隊:建設和維護數據中台,包括 ETL、數據采集,以及數據中台性能和穩定性保證,利用中台的工具采集、存儲、加工、處理數據。
- 數據分析團隊:分析數據價值、探索場景,生產更多的數據服務。
- 數據治理團隊:梳理數據標准、構件數據安全和隱私規范,利用開源去中心化的數據治理工具(比如 atlas、wherehows)來圍繞業務場景解決數據質量和安全問題。
- 智能算法團隊:為數據分析、業務探索提供智能和算法工具。
數據中台的核心價值是什么
- 創新力----幫助企業用數據思維激活行業沉淀,形成發展新動力。業務人員和技術人員需要從各自不同角度去發掘業務價值,並將業務價值轉變為更接地氣的用戶角度的東西,易懂易用易理解,用戶才會接受。
- 場景驅動----外部環境及內部業務調整,快速適應不斷變化的需求。場景驅動需要將被動變成主動,問題發生時,能夠基於數據資產體系及服務體系的積累快速給出響應。
- 經驗沉淀----資產價值挖掘過程中,需將經驗轉換為數據資產體系的一部分。業務方通過對場景的理解,快速選擇所需的數據能力驗證數據價值,驗證過程及結果數據,做為數據資產沉淀的重要部分,回饋到數據中台中,做為持續優化的關鍵能力。
從以上三點,我們可看出數據中台依托的是企業的內外部的業務需求驅動,自身創新挖掘以及根據業務場景進行驅動創新來賦能業務應用,這個過程是一個循環的過程,需要將這種過程資產形成經驗積累下來,以此更好的打造數據中台的適應能力。
出處:https://zhuanlan.zhihu.com/p/88537265