一、大數據的基本概念
其實到目前為止對於大數據的數據量的多少還是一個可變定義,主觀定義,即並不是要大於一個特定數據的TB,才叫大數據,包括在做的項目中,有的客戶因場景需求即使幾TB的數據仍然需要建立大數據體系來提供價值。所以這就體現了數據的屬性,如行業屬性,歷史屬性,價值屬性等等。
二、大數據的結構
大數據簡單來說一般可分為3層結構
1, 數據采集層
2, 數據計算層
3, 數據應用層
每三層又可細分為若干個動作
1.數據采集層可分為:
數據來源層(掌握數據的來源如日志,數據庫,圖片等等)
數據傳輸層(負責數據的傳輸,抽取等當前主流的框架有flume等)
數據存儲層(將數據存儲在文件數據庫或HBase等)
2.數據計算層可分為:
資源管理層(提升集群利用率、資源統一管理和數據共享,主流工具有YARN等等)
數據分析層(解決海量數據的離線或實時運算,主流框架有MapReduce離線計算,Storm離線計算 )
任務調度層(一個能把多個MR作業組合為一個邏輯工作單元(一個工作流),從而自動完成任務調用的工具)
2. 數據應用層可分為:
為多種大數據應用直接提供數據源

(只是找了些主流的組件,可根據不同業務場景替換)
三、數據倉庫
1、數據倉庫是什么?
數據倉庫是大數據的底座,這里是指除了物理服務器之外的數據底座。
數據倉庫是一個面向主題的,集成的,相對穩定的,反應歷史的數據集合,
2、數據倉庫的價值及意義:
一,支持管理決策,面向分析型數據處理,不同於企業現有的交易型,操作型數據庫
二,數據倉庫是對多個異構數據源的有效集成,並按照主題進行重組
三,數據倉庫是把信息及時交給所需要的這些信息的使用者,使之作出改善其業務經營決策,發揮意義和價值,信息重組是數據倉庫的根本任務
四、數據倉庫分層(五層):
ODS:原始數據層-直接存放原數據,不做任何處理,如日志,操作記錄,事件記錄等
DWD:明細數據層-對原始數據進行清洗如(去空,超過極限的數據,脫敏等)
DWS :數據服務層-以數據明細層為基礎,按天進行輕度匯總(每天的數據量,銷售量等)
DWT:主題數據層 以DWS數據服務層為基礎,按主題進行匯總,獲得每個主題的全量數據表
ADS:(專題庫)數據應用層面向實際的數據需求,為各種統計表報提供數據
五、構建(建模)思想:
1,原始數據層-備份-追溯-分區,壓縮
2,數據明細層-構建維度模型(星形模型)
3,服務數據層-服務於主題數據層(DWT)的主題寬表,該表字段是站在不同的視角去看事實表
4,主題層(主題寬表) 站在維度表的角度去看事實表,重點關注事實表度量的累計值。首次時間,末次時間如(首次下單時間,末次下單時間,累計下單金額,累計下單量等等)
5,數據應用層-對個主題的指標分析,提取
