詳解大數據數據倉庫分層架構


大數據數據倉庫是基於HIVE構建的數據倉庫,分布文件系統為HDFS,資源管理為Yarn,計算引擎主要包括MapReduce/Tez/Spark等,分層架構如下:


 

1、數據來源層:日志或者關系型數據庫,並通過Flume、Sqoop、Kettle等etl工具導入到HDFS,並映射到HIVE的數據倉庫表中。


 

2、事實表是數據倉庫結構中的中央表,它包含聯系事實與維度表的數字度量值和鍵。事實數據表包含描述業務(例如產品銷售)內特定事件的數據。

3、維度表是維度屬性的集合。是分析問題的一個窗口。是人們觀察數據的特定角度,是考慮問題時的一類屬性,屬性的集合構成一個維。數據庫結構中的星型結構,該結構在位於結構中心的單個事實數據表中維護數據,其它維度數據存儲在維度表中。每個維度表與事實數據表直接相關,且通常通過一個鍵聯接到事實數據表中。星型架構是數據倉庫比較流向的一種架構。

星型模式的基本思想就是保持立方體的多維功能,同時也增加了小規模數據存儲的靈活性。


 

說明:

1)、事實表就是你要關注的內容;

2)、維度表就是你觀察該事務的角度,是從哪個角度去觀察這個內容的。

例如,某地區商品的銷量,是從地區這個角度觀察商品銷量的。事實表就是銷量表,維度表就是地區表

4、主題表:主題(Subject)是在較高層次上將企業信息系統中的數據進行綜合、歸類和分析利用的一個抽象概念,每一個主題基本對應一個宏觀的分析領域。在邏輯意義上,它是對應企業中某一宏觀分析領域所涉及的分析對象。例如“銷售分析”就是一個分析領域,因此這個數據倉庫應用的主題就是“銷售分析”。

面向主題的數據組織方式,就是在較高層次上對分析對象數據的一個完整並且一致的描述,能刻畫各個分析對象所涉及的企業各項數據,以及數據之間的聯系。所謂較高層次是相對面向應用的數據組織方式而言的,是指按照主題進行數據組織的方式具有更高的數據抽象級別。與傳統數據庫面向應用進行數據組織的特點相對應,數據倉庫中的數據是面向主題進行組織的。例如,一個生產企業的數據倉庫所組織的主題可能有產品訂貨分析和貨物發運分析等。而按應用來組織則可能為財務子系統、銷售子系統、供應子系統、人力資源子系統和生產調度子系統。

5、匯總數據層:聚合原子粒度事實表及維度表,為滿足固定分析需求,以提高查詢性能為目的,形成的高粒度表,如周報、月報、季報、年報等。

6、應用層:

為應用層,這層數據是完全為了滿足具體的分析需求而構建的數據,也是星形結構的數據。應用層為前端應用的展現提現數據,可以為關系型數據庫組成。

7、【補充】

數據緩存層:

用於存放接口方提供的原始數據的數據庫層,此層的表結構與源數據保持基本一致,數據存放時間根據數據量大小和項目情況而定,如果數據量較大,可以只存近期數據,將歷史數據進行備份。此層的目的在於數據的中轉和備份。

臨時數據表層:

存放臨時測試數據表(Temp表),或者中間結果集的表。

 

這里對大數據技術感興趣或者想學習大數據的朋友,我整理了一套大數據的學習視頻免費分享給大家,從入門到實戰都有,大家可以加微信:Lxiao_28獲取,還可以入微信群交流!(備注領取資料,真實有效)。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM