(原創)大數據 數倉基本概念梳理


 

一、大數據的基本概念

  其實到目前為止對於大數據的數據量的多少還是一個可變定義,主觀定義,即並不是要大於一個特定數據的TB,才叫大數據,包括在做的項目中,有的客戶因場景需求即使幾TB的數據仍然需要建立大數據體系來提供價值。所以這就體現了數據的屬性,如行業屬性,歷史屬性,價值屬性等等。

二、大數據的結構

大數據簡單來說一般可分為3層結構

1,  數據采集層

2,  數據計算層 

3,  數據應用層

 每三層又可細分為若干個動作

1.數據采集層可分為:

  數據來源層(掌握數據的來源如日志,數據庫,圖片等等)

  數據傳輸層(負責數據的傳輸,抽取等當前主流的框架有flume等)

  數據存儲層(將數據存儲在文件數據庫或HBase等)

2.數據計算層可分為:

  資源管理層(提升集群利用率、資源統一管理和數據共享,主流工具有YARN等等)

  數據分析層(解決海量數據的離線或實時運算,主流框架有MapReduce離線計算,Storm離線計算 )

  任務調度層(一個能把多個MR作業組合為一個邏輯工作單元(一個工作流),從而自動完成任務調用的工具)

2. 數據應用層可分為:

  為多種大數據應用直接提供數據源  

 (只是找了些主流的組件,可根據不同業務場景替換)

 

三、數據倉庫

1、數據倉庫是什么?

  數據倉庫是大數據的底座,這里是指除了物理服務器之外的數據底座。

  數據倉庫是一個面向主題的,集成的,相對穩定的,反應歷史的數據集合,

2、數據倉庫的價值及意義:

一,支持管理決策,面向分析型數據處理,不同於企業現有的交易型,操作型數據庫

二,數據倉庫是對多個異構數據源的有效集成,並按照主題進行重組

三,數據倉庫是把信息及時交給所需要的這些信息的使用者,使之作出改善其業務經營決策,發揮意義和價值,信息重組是數據倉庫的根本任務

四、數據倉庫分層(五層):

ODS:原始數據層-直接存放原數據,不做任何處理,如日志,操作記錄,事件記錄等

DWD:明細數據層-對原始數據進行清洗如(去空,超過極限的數據,脫敏等)

DWS :數據服務層-以數據明細層為基礎,按天進行輕度匯總(每天的數據量,銷售量等)

DWT:主題數據層  以DWS數據服務層為基礎,按主題進行匯總,獲得每個主題的全量數據表

ADS:(專題庫)數據應用層面向實際的數據需求,為各種統計表報提供數據

 五、構建(建模)思想:

1,原始數據層-備份-追溯-分區,壓縮

2,數據明細層-構建維度模型(星形模型)

3,服務數據層-服務於主題數據層(DWT)的主題寬表,該表字段是站在不同的視角去看事實表

4,主題層(主題寬表) 站在維度表的角度去看事實表,重點關注事實表度量的累計值。首次時間,末次時間如(首次下單時間,末次下單時間,累計下單金額,累計下單量等等)

5,數據應用層-對個主題的指標分析,提取


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM