淺談數據倉庫和大數據


前言

數據倉庫是今年來適應利用數據支持決策分析的強烈需求而發展起來的數據庫應用技術,誠然,數據倉庫以數據庫為基礎,但是他在需求、客戶、體系結構與運行機制等方面與數據庫存在重大的不同,Kimball說:"我們花了二十年的時間往數據庫中加入數據,現在該是拿出來使用的時候了。"    ---摘自數據倉庫工具箱:維度建模(第二版)

1.數據倉庫理解

根據筆者自己的理解,數據倉庫是一個抽象的概念,而實現的載體則是我們常見的各種數據庫表。比如傳統行業中用到的Oracle、Teradata(簡稱TD)、GreenPlum(簡稱GP),互聯網行業中用到的Hive、Spark。它的一個主要應用點的體現就是我們企業中建設的數據平台

2.數據平台&數據倉庫的組成

先寬泛的講述下數據平台和數據倉庫的組成
數據平台可划分為如下子平台:數據同步平台、數據倉庫、調度平台、元數據管理平台、即席查詢平台、數據可視化平台、數據質量檢測系統
數據倉庫由於是一個抽象的概念所以可以簡單的理解為不同粒度的數據層,比如:數據緩沖層(存放當日增量數據)、數據明細層(存放最全的明細數據)、數據模型層(輕粒度的數據匯總以及模型設計,這個時候需要設計相應的主題)、數據集市層(一般就是一些寬表,包含多維度和指標,方便用來做多維分析)、數據應用層(主要是開放給業務側使用,多存放粗粒度的數據報表)
每個公司對每層的命名不一樣,所以就不用什么ods,dw等來標識各個層級。

3.數倉和大數據的關系

在寫對數倉的理解的時候其實已經點出了數倉和大數據的關系,現在講一下我個人理解的數倉演變歷史以及為什么要用大數據來實現數倉。

3.1 數倉的過去

數據倉庫在很早的時候就被數據倉庫之父Inmon 提出來了,按我的理解,很早的時候主要是對自己企業內部業務數據的一個分析決策,用一些傳統的關系型數據庫為載體,加上Kettle、Informatica、DataStage等ETL工具以及Biee、smartBi等報表工具來支撐企業自己的數據倉庫建設。其服務目標是部分企業高管、市場人員、運營人員等。                 

3.2 數倉的現在

數據倉庫在現在的應用已經遠非以前的應用范圍,其區別主要體現在一下幾點:
1.數據源多樣化
   以前的數據源可能多數是來自企業的交易數據,但是現在則會由以下來源組成,比如:交易數據、行為數據、竟對數據、CRM、 財務數據等
2.數據量暴漲
   由於以前數據來源單一,數據量相比較現在增長不會那么快,多數的中小型企業使用一個高配的小機+關系型數據庫即可滿足數倉的計算資源需求。但是現在由於數據源的多樣化,導致數據量暴漲,單機的計算已經滿足不了現有資源,但是MPP架構的數據庫又太貴(比如TD),而且也無法滿足企業處理行為日志數據的需求。這個時候大數據技術應運而生,以hadoop+hive的技術處理開始占據主流。尤其是互聯網行業的迅速發展,對其有一定的帶動性。
3.服務對象的不同
   個人說的以前偏向於傳統行業,他們的服務對象偏向於高管、運營、財務等職能人員。而現在則會有各種各樣的服務對象,比如:高管、運營、財務等職能人員關注的報表必不可少,除此之外還有產品、運營等人關注的竟對分析以及內部風控,反欺詐等線上系統以及推薦等系統模塊的接口調用

3.3 數倉的未來

目前在國外已經有人提出了Data Lake和Data Vault的概念。讓我們拭目以待是否可以在國內普及應用~

總結

之所以出現hadoop、spark等大數據處理技術,數據多樣化以及對數據時效性越來越高占主要因素,成本也是其中的一個因素,但是個人認為占比很小,因為區別僅僅在於到底是把錢花在了機器和系統上還是花在了人力上~
下面簡單的對傳統行業以及互聯網行業建設數據倉庫的時候用到的一些工具做些總結
1.傳統行業
數據庫:Oracle、DB2、TD(MPP結構,列式存儲)、GP(MPP結構,列式存儲)、SybaseIQ(MPP結構,列式存儲)、MySql Inforbright、MsSql、等
ETL工具:Informatica、DataStage、Kettle、Automation(調度平台)、SSIS、企業內部調度工具等
可視化工具:Biee、tableau、Congons、Power BI等
2.互聯網行業
離線倉庫架構:Sqoop+hadoop+hive/spark+mysql/hbase+echarts/tableau/highchars
實時架構:flume+kafka+storm/spark streaming+hbase/redis+echarts/tableau/highchars


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM