大數據概述
物聯網、雲計算和大數據,是第三次信息化浪潮的產物。
技術支撐:存儲設備容量的不斷增加、CPU處理能力大幅提升、網絡帶寬不斷增加。
數據產生方式:經歷了運營式系統、用戶原創階段,進入了感知式系統階段,物聯網技術,可穿戴設備、各種傳感器之類的使數據量更大、更密集。
大數據的4V說法
- 數據量大(Volume):web2.0時代以及物聯網技術的發展,數據爆炸。2020年,全球數據量約有35ZB(ZB、EB、PB、TB)
- 數據類型繁多:90%的數據都是非結構化的,而且包括視屏、郵件、微信、微博、定位等等各種各樣的數據。數據種類復雜,對數據的存儲和處理提出了新的挑戰。存儲方面從傳統的RDBMS向NoSQl遷移,數據處理上,傳統的聯機分析處理(On-Line Analytical Processing OLAP)和商業智能工具(BI)大都面向結構化數據,新的支持非結構化數據分析的解決方案正在迅速發展。
- 處理速度快:很多應用需要數據處理和分析具有秒級響應(這一點與傳統的數據挖掘技術有着本質不同)。以谷歌Dremel為例,這個系統能夠在幾秒內完成PB級數據的查詢。這取決於它的分布式集群處理和獨特的內部設計。
- 價值密度低:大量非結構化數據,價值密度顯然低於傳統的關系型數據中的數據。
大數據的影響
思維上
大數據使得人類研究經歷了實驗、理論、計算后,進入了第四種思維范式——數據密集型科學,我們先有了已知的大量數據,然后通過計算得出之前未知的理論。
三大顯著特征:
- 全樣而非抽樣:傳統的數據分析方案使抽樣分析,樣本的選取非常關鍵,要在上面花很多心思取樣,由樣本推知整體。大數據時代,存儲資源和計算資源大幅度提升,可以實現對海量數據的存儲和處理,分布式文件系統和分布式數據庫提供了理論上無限的數據存儲能力,分布式並行編程框架(如MapReduce)提供里強大的數據並行處理能力,所以有能力進行全集分析。
- 效率而非精確:抽樣分析存在誤差,為保證誤差可控,更加注重算法的准確率而非效率,而大數據時代,全樣使得結果不存在誤差放大,而且多了秒級響應的需求,因而效率成了關注的核心。
- 相關而非因果:事物背后的發展機理不是大數據關注的,我們只需要知道挖掘出由A就有B這樣的結論,無需知道A與B之間有怎樣的因果關系。相關性比因果性更重要,這也符合第四范式的思維。讓超大量的數據幫我們判斷,而不是依靠邏輯關系。
社會發展上
為很多行業提供決策支持、促進信息技術與各行業的深度融合、推動與新技術和新應用的發展,是科技發展的必然趨勢。
就業
這個就不扯了,當下很火就是了。大數據需要學習的東西很多,慢慢努力吧。
統計、數學、機器學習、可視化、編程、英語(看文檔啊)。
關鍵技術
可以把整個數據分析分為四個流程
技術層面 | 功能 |
---|---|
數據采集與預處理 | 利用ELT工具將分布的、異構數據源中的數據抽取到中間層清洗、轉換,最后加載至DW中,為OLAP、數據挖掘提供數據;也可以利用日志采集工具(Flume、Kafka)把實時采集的數據作為流計算系統(Storm)的輸入,進行實時分析。 |
數據存儲和管理 | 利用分布式文件系統、數據倉庫、RDBMS、NoSQL、雲數據庫等,實現結構化、半結構化、非結構化海量數據的存儲和管理。 |
數據處理和分析 | 利用分布式並行編程模型和計算框架,結合機器學習和數據挖掘算法,實現對海量數據的處理和分析。對其可視化(如web系統、統計圖)方便理解分析數據。 |
數據安全和隱私 | 尊重他人隱私,做合法公民。 |
大數據計算模式和代表模型
大數據計算模式 | 解決問題 | 代表產品 | 特征 |
---|---|---|---|
批處理計算 | 大規模數據批量處理 | MapReduce、Spark | 適用於大規模(1TB)的並行運算。幫你處理好包括分布式編程、網絡通訊等細節,專注於核心的計算過程。Spark以內存存儲中間結果優化了迭代工作負載(以后再細說) |
流計算 | 流數據實時計算 | Storm、Spark Streming(spark系統中的)、Dsteam(百度的)、銀河流數據處理平台(淘寶的) | 針對那些數據價值隨時間流逝降低的分析,給出妙計響應。 |
圖計算 | 大規模圖結構數據處理 | GraphX、PowerGraph、Pregel | 圖結構的數據是稀疏結構,MapReduce不適合處理這種細粒度、多迭代的計算。因而設計這些適合圖遍歷、最短路徑、PageRank計算的平台。 |
查詢分析計算 | 大規模數據的存儲管理和查詢分析 | Dremel、Hive | t通過結合多級樹狀執行過程和列式數據結構,幾秒內做到對萬億張表的聚合查詢,PB級。 |
大數據於雲計算、物聯網的關系
我的理解雲計算是把物理的、空間計算、存儲等資源池化后再分配。核心在於分布式
1、雲計算按服務模式可以分為 IaaS,PaaS 和 SaaS:
(1)IaaS 基礎設施即服務(Infrastructure as a server):用戶通過 Internet 可以租用到完善的計算機基礎設施層(計算、存儲和網絡帶寬等資源)。用戶不用理會雲系統底層的基礎架構,可以在上面運行軟件、存儲數據和發布程序。如 IBM 的藍雲和亞馬遜的 EC2。
(2)PaaS 平台即服務(platform as a Server):將軟件研發的平台作為一種服務(系統中資源的部署、分配、監控和安全管理以及分布式並發控制等)提供給用戶。在 PaaS 平台上,企業用戶不用擔心程序運行時所需的資源,可以快速開發應用,第三方軟件提供商也可以快速開發出適合企業的定制化應用。如 Salesforce 公司的 force.com 平台。
(3)SaaS 軟件即服務(Soft as a Server):通過 Internet 向用戶提供雲端軟件應用服務和用戶交互接口等服務。用戶:由於這些軟件應用只是安裝在雲端,從而省去了購買軟件的費用;雲計算供應商:只需維持一個程序,大幅度降低了成本。如 Salesforce 的 CRM、微軟的在線辦公平台和 Google Apps。
2、雲計算按部署類型可以分為私有雲、公有雲和混合雲:
(1)公有雲:雲計算服務由第三方提供商完全承載和管理,為用戶提供價格合理的計算資源訪問服務,用戶無需購買硬件、軟件或支持基礎架構,只需為其使用的資源付費。公有雲用戶無需支付硬件帶寬費用、投入成本低,但數據安全性低於私有雲。
(2)私有雲:企業自己采購基礎設施,搭建雲平台,在此之上開發應用的雲服務。私有雲可充分保障虛擬化私有網絡的安全,但投入成本相對公有雲更高。
(3)混合雲:一般由用戶創建,而管理和運維職責由用戶和雲計算提供商共同分擔,其在使用私有雲作為基礎的同時結合了公共雲的服務策略,用戶可根據業務私密性程度的不同自主在公有雲和私有雲間進行切換。
3、雲計算關鍵技術:
虛擬化(docker流行)、分布式存儲、分布式計算(上面介紹了)、多租戶(雲資源分配)。
物聯網
物聯網( IoT ,Internet of things )即“萬物相連的互聯網”,是互聯網基礎上的延伸和擴展的網絡,將各種信息傳感設備與互聯網結合起來而形成的一個巨大網絡,實現在任何時間、任何地點,人、機、物的互聯互通。
關鍵技術包括識別和感知技術(RFID、二維碼、傳感器等),網絡與通訊技術(藍牙、WiFi、4G等)、數據挖掘與融合技術。
應用:智能家居、智能醫療、智能農業……
三者關系
- 物聯網為大數據提供重要數據來源,大數據為物聯網數據分析提供支持
- 雲計算為大數據提供基礎設施(分布式)、
- 雲計算為物聯網提供數據存儲設施
- 三者之間彼此滲透,相互融合、相輔相成。