所謂建設背景,就是要弄明白我們為什么要建設這個統一數據平台。
1. 簡介
統一數據平台,我給它起了個英文全稱叫 Unified Data Platform,簡稱 UDP。
采用Hadoop生態軟件(如:HDFS、HBase、Hive、Kafka、Spark stream等)、傳統關系型數據庫、MPP數據庫相結合的大數據混搭技術架構,采集加工傳統的結構化經營數據、半結構化的日志數據以及非結構化的上網行為數據,建設大數據倉庫,實現一點加工,統一服務。
2. 背景
平台建設背景主要分為內因和外因。
內因主要表現在數據的采集、存儲、管理、使用等環節發生了新的形式變化,這些變化大致來源於數據量增加、數據多樣、使用個性化等方面,需要采取新的手段來改善當前局面;外因主要是當前的技術趨勢,社會普遍開始引入大數據進入企業,這也說明各個企業的數據也在發生着翻天蓋地的變化,也在謀求新的技術手段來解決各種數據問題以服務公司的運營,幾大巨頭公司(Google、Facebook、Amazon、Apache等)作為技術先驅正引領着這一潮流。
2.1 數據管理十分混亂
截止目前,原底層數據倉庫已服務企業八年半,於09年初開始建設投入使用。
數據開發人員更替快,數據管理沒有制定執行嚴格的標准,不同的人使用不同的模型生產同樣的數據;后一半時間幾乎完全的以需求為導向,自上而下建設底層數據模型,不遵循科學的數據倉庫建設方法,使得倉庫數據模型更加混亂,過度冗余,加工繁雜。
2.2 數據體量急劇增長
從09年到18年,互聯網發生了翻天覆地的變化,數據呈幾何級數增長,我們進入了大數據時代。
電信行業流量業務需求呈爆發式增長,用戶高速4G網絡數據使用越來越多,流量價格越來越低,運營商急需相應的大數據技術來采集分析用戶的消費行為數據,了解用戶行為特征,挖掘潛在業務增長點,在激烈的4G時代爭奪用戶。
2.3 數據需求呈多樣化
從我來到現在的公司,縱觀已經實施的數據類需求,從基本的多維報表、專題模塊這類固定式數據展現的需求到根據用戶需求,貼身為其提供統計個性化數據服務,再到用戶自行選擇維度,橫縱向挖掘式地探索式分析數據,用戶的需求呈現多樣化復雜化,個人定制需求越來越豐富。
固定化的報表明顯無法再滿足其撰寫分析報告的數據需求,數據中心直接提供給用戶用來解決自身數據需求的模型的顆粒度明顯細化,用戶轉而希望自己可以在同一時間類自行分析不同維度不同層次的數據集。
要想及時滿足用戶這樣的數據需求,底層數據的加工效率、數據的統計展現效率是兩個非常重要的環節。
2.4 數據資產反復提出
數據資產管理一般地認為有十大數據管理職能:數據治理、數據架構管理、數據開發、數據操作管理、數據安全管理、參考數據和主數據管理、數據倉庫和商務智能管理、文檔和內容管理、元數據管理、數據質量管理。
2.5 數據服務要求更高
用戶使用的系統呈煙囪式分布,原數據倉庫(Data Warehouse)通過ETL把生產系統的數據取過來后,分發給其他系統,每個系統都保留了大量的原始數據,根據自己的業務需求進行數據沉淀和匯總。
這種模式造成數據資源的重復建設和硬件資源的浪費,同時由於各個系統的數據匯總口徑有偏差,同樣的指標數據在多個系統結果不完全一致,整個數據中心對外的數據結果差異導致數據的說服力不夠,容易引起業務部門對數據質量的不信任。
3.總結
統一數據平台計划采集各個生產系統的數據,建設大數據倉庫,提供大數據服務,最終實現所有數據的一點采集、一點加工、一點存儲、一點管控、一點服務。
注:以上文字僅是從個人業務實踐的角度來思考,文字表述未細雕琢,立意未高屋建瓴,較為淺陋。
