計划撰寫內容:1.平台使用的技術體系及其組成的架構;2.平台的數據體系(架構);3.主要技術的介紹
1.集群概述
Hadoop集群在於其生態組件的豐富性,目前,我們平台已經部署包含采集、存儲、計算、資源管理相關的hadoop、hdfs、hive、hbase、yarn、zookeeper、sqoop、flume、storm、spark、kafka等組件。
其中hadoop、hdfs、hive、sqoop 是我們目前最直接常用的組件。
一二期階段,Hive是我們建設大數據倉庫首選加工語言,Sqoop用來實現Oracle和Hive的數據交換,目前我們處於此階段。
三期階段,我們計划建設實時類數據采集加工服務,將采用flume、kafka、storm、spark等技術。
2.服務架構
當我們把系列技術優化整合成功用來解決相關業務需求的時候,就形成了一套完整的服務架構。
以下內容嚴格意義上屬於公司內部知識,但尚未涉及知識侵權,適當調整與大家分享學習。
2.1總體架構
2.2技術體系
2.3數據體系
(電信運營聯通的大數據倉庫體系,由我們公司總部大數據專家建設,省分參考落地)
2.4數據服務
3.平台規划采集內容
3.1 傳統結構化經營數據
重心 70%
3.2 半結構化上網日志數據
20% (json等格式)
dpi解析(深度報文解析)---url(app\網站)、關鍵詞
3.3 非結構化上網行為數據
10% 文本挖掘、搜索關鍵詞、熱點詞頻等
暫未涉及
參考知識:MPP數據庫與SMP數據庫
1.大規模並行處理(MPP:Massively Parallel Processor )
目前常見的MPP架構數據庫:
1.GreenPlum
2.DB2 DPF架構數據庫(DB2的多分區數據庫)
3.vertica mpp數據庫
(其他:GBase 8a cluster、xCloud、infindb(開源)、infobright(開源))
MPP數據庫特點:
1.全部基於PostgreSQL或自行定義的類SQL語言
2.都是基於列的存儲(Columnar Storage)
3.操作都是以Scan為基礎,依賴Compression來提供性能的優化
列存數據庫:
GreenPlum、GBase 8a、xCloud、infindb(開源)、infobright(開源)
xCloud(行雲)是我們公司自主研發的列存儲數據庫。
列式數據庫是以列相關存儲架構進行數據存儲的數據庫,主要適合與批量數據處理和即席查詢。
列式數據庫從一開始就是面向大數據環境下數據倉庫的數據分析而產生,它跟行式數據庫相比當然也有一些前提條件和優缺點.
列式數據庫優點:
極高的裝載速度 (最高可以等於所有硬盤IO 的總和,基本是極限了)
適合大量的數據而不是小數據
實時加載數據僅限於增加(刪除和更新需要解壓縮Block 然后計算然后重新壓縮儲存)
高效的壓縮率,不僅節省儲存空間也節省計算內存和CPU.
非常適合做聚合操作.
2.對稱多處理(SMP:Symmetrical Multi-Processing)
Oracle等是基於此架構。
這些都是指服務器的架構。
從系統架構來看,目前的商用服務器大體可以分為三類,即:
對稱多處理器結構(SMP:Symmetric Multi-Processor)
非一致存儲訪問結構(NUMA:Non-Uniform Memory Access)
以及海量並行處理結構(MPP:Massive Parallel Processing)