一、楔子
大數據傳統企業實施,其路漫漫,絕不會如曇花一現,探索大數據在傳統行業的實施之路,尋找一條適合傳統行業的企業大數據實施方法體系,是我執着堅守的信念,大數據是一種信仰,吾將上下而求索。記下項目中的點滴,算是日志,自勉。
二、項目背景
最近在處理一個商業銀行的大數據項目,旨在構建大數據資源池,項目邊界確認過程中,針對項目的定位出現了兩種不同的觀點,對大數據的在傳統行業的應用有了新的啟發。觀點一、大數據作為操作數據歷史庫,存儲操作數據庫數據,提供歷史數據長周期,快速檢索的歷史數據存儲和快速查詢服務。觀點二、大數據作為數據倉庫的的歷史庫,解決數據倉庫歷史數據存儲的問題,構建一個大容量,高可用的數據存儲平台,為全量數據分析和知識挖掘提供服務。作為操作數據庫的歷史庫,已經完成了項目的實施,但是作為數據倉庫的歷史庫之前的定位一直是取代,基於大數據做數據分析和知識挖掘,現在卻找到了一個新的切入點,才發現,原來二者並不矛盾。
三、數據倉庫與操作數據庫
數據倉庫的定義並無統一的說法,通常的到人們認可的概念是:一個面向主題的、集成的、時變的、非易失的數據集合,支持管理者的決策過程。簡單點說數據倉庫就是一種語義上的數據存儲,它充當決策支持數據模型的物理實現,並存放於企業戰略決策相關的重要信息。
數據倉庫不同於操作數據庫,操作數據庫的主要任務是執行聯機事務處理和查詢處理,稱作聯機事務處理(OLTP)系統。數據倉庫系統在數據分析和決策支持方面為用戶或者機器學習提供服務,即聯機分析處理(OLAP)。二者的主要區別在於五個大的方面:
1)用戶系統的面向性:客戶與市場;
2)數據內容:當前與歷史;
3)數據庫設計:ER與面向主題
4)視圖:當前與全景
5)訪問模式:原子事務與只讀操作
傳統模式下數據倉庫服務器通常采用關系型數據庫,也就是說從軟件實現的角度,數據倉庫和操作型數據采用的模式是一樣的。這就決定了,數據倉庫和操作數據庫面臨同樣的問題:行業壟斷帶來的成本依賴、數據模型帶來的存儲瓶頸和運算瓶頸。
數據倉庫的三層架構如下圖所示:
四、大數據的位置
數據倉庫系統應用大數據技術的模式還在探索,但是目前總結了幾個方面的應用。
1)大數據作為數據倉庫的歷史數據存儲系統:解決數據倉庫只能存儲短時段數據的問題
2)構建基於大數據平台的數據模型,致力於低成本的數據挖掘體系:傳統BI的瓶頸在於軟硬件綁定、商業壟斷和處理性能,基於但數據開源體系的算法模型和並行計算能力,構建全量的數據分析和挖掘,最終目標在於取代原有高成本的BI體系,為企業降低負擔。
3) 實時+離線模式的確立,可以充分利用企業已有的IT資源設施,充分利用成熟的BI技術,從而為企業提供更好的服務。
五、遺留問題
大數據定位為離線的數據倉庫,將會出現三級數據存儲模型,實時操作庫-數據倉庫-大數據資源池,目標有定位已經明確,但是具體實施仍要探索,未完待續...