大數據概念:數據量大,數據類型繁多,處理速度快,價值密度低 。
大數據的影響: 思維方面:全樣而非抽樣,效率而非精確,相關而非因果。
關鍵技術:數據采集,數據存儲與管理,數據處理與分析,數據隱私和安全。
兩大核心技術:分布式存儲:如GFS 和 HDFS
分布式處理:如MapReduce 和 Spark
計算模式:批處理計算:針對大規模的數據的批量處理 技術:MapReduce,Spark等
流處理:針對流數據的實時計算 技術:Storm等
圖計算:針對大規模圖結構數據的處理 技術: Pregel ,Graph等
查詢分析計算:大規模數據的存儲管理和查詢分析 技術:Dremel, Hive等
雲計算:實現了通過網絡提供的可伸縮的,廉價的分布式計算能力。用戶只需要在具備網絡接入條件的地方,就可以隨時隨地獲得所需的各種IT資源。
雲可分為:公有雲,私有雲和混合雲。
雲計算分為:Saas(Software as a Service)軟件即服務。 從一個集中的系統部署軟件。並通過雲購買。
Paas(Platform as a Service )平台即服務。 類似Iaas ,但它包括操作系統和圍繞特定應用的必需服務。
Iaas(Infrastructure as a Service) 基礎設施即服務。 將基礎設施作為服務出租。
雲計算關鍵技術:虛擬化,分布式存儲,分布式計算,多租戶。


PS:圖片摘自廈門大學林子雨老師在中國大學上的公開課《大數據技術原理與應用》。
