這篇博文里的好多內容之前在讀《大數據時代》時讀到過,所以就算是補上的讀書筆記?
信息科技為大數據時代提供技術支撐
1.存儲設備容量不斷增加
2.CPU處理能力大幅提升
3.網絡帶寬不斷增加
數據產生方式的變革促成大數據時代的來臨
1.運營式系統階段
2.用戶原創內容階段
3.感知式系統階段
大數據的概念
關於“什么是大數據”這個問題,大家比較認可關於大數據的“4V”說法。大數據的4個“V”,或者說是大數據的四個特點,包含四個層面:數據量大(Volume)、數據類型繁多(Variety)、處理速度快(Velocity)和價值密度低(Value)。
大數據對科學研究的影響
1.第一種范式:實驗科學:最初的科學研究階段,人類采用實驗來解決一些科學問題。
2.第二種范式:理論科學:隨着科學的進步,人類開始采用數學、幾何、物理等理論,構建問題模型和解決方案。
3.第三種范式:計算科學:計算科學主要用於對各個科學問題進行計算機模擬和其他形式的計算。
4.第四種范式:數據密集型科學:在大數據環境下,一切將以數據為中心,從數據中發現問題、解決問題,真正體現數據的價值。
大數據對思維方式的影響
1.全樣而非抽樣
2.效率而非精確
3.相關而非因果
大數據關鍵技術
當人們談到大數據的時候,往往並非僅指數據本身,而是數據和大數據技術這二者的結合。所謂大數據技術,是指伴隨着大數據的采集、存儲、分析和應用的相關技術,是一系列使用非傳統的工具來對大量的結構化、半結構化和非結構化數據進行處理,從而獲得分析和預測結果的一系列數據處理和分析技術。
討論大數據技術時,首先需要了解大數據的基本處理流程,主要包括數據采集、存儲、分析和結果呈現等環節。數據無處不在,互聯網網站、政務系統、零售系統、辦公系統、自動化生產系統、監控攝像頭、傳感器等,每時每刻都在不斷產生數據。這些分散在各處的數據,需要采用相應的設備或軟件進行采集。采集到的數據通常無法直接用於后續的數據分析,因為對於來源眾多、類型多樣的數據而言,數據缺失和語義模糊等問題是不可避免的,因而必須采取相應的措施有效解決這些問題,這就需要一個被稱為“數據預處理”的過程,把數據變成一個可用的狀態。數據預處理以后,會被存放到文件系統或數據庫系統中進行存儲與管理,然后采用數據挖掘工具對數據進行處理分析,最后采用可視化工具為用戶呈現結果。在整個數據處理過程中,還必須注意隱私保護和數據安全等問題。
因此,從數據分析全流程的角度,大數據技術主要包括數據采集與預處理、數據存儲和管理、數據處理與分析、數據安全和隱私保護等幾個層面的內容。
大數據計算模式
大數據處理的問題復雜多樣,單一的計算模式是無法滿足不同類型的計算需求的,MapReduce只是大數據計算模式中的一種,它代表了針對大規模數據的批量處理技術,除此之外,還有查詢分析計算、圖計算、流計算等多種大數據計算模式。
1.批處理計算:批處理計算主要解決針對大規模數據的批量處理,也就是我們日常數據分析工作中非常常見的一類數據處理需求。
2.流計算:流數據是指在時間分布和數量上無限的一系列動態數據集合體,數據的價值隨着時間的流逝而降低,因此必須采用實時計算的方式給出秒級響應。流計算可以實時處理來自不同數據源的、連續到達的流數據,經過實時分析處理,給出有價值的分析結果。
3.圖計算:在大數據時代,許多大數據都是以大規模圖或網絡的形式呈現的,如社交網絡、傳染病傳播途徑、交通事故對路網的影響等,此外,許多非圖結構的大數據也常常會被轉換為圖模型后再進行處理分析。
4.查詢分析:針對超大規模數據的存儲管理和查詢分析,需要提供實時或准實時的響應,才能更好地滿足企業經營管理需求。
大數據與雲計算、物聯網
1.雲計算
雲計算的概念:雲計算實現了通過網絡提供可伸縮的、廉價的分布式計算能力,用戶只需要在具備網絡接入條件的地方,就可以隨時隨地獲得所需的各種IT資源。雲計算代表了以虛擬化技術為核心、以低成本為目標、動態可擴展的網絡應用設施,是近幾年最有代表性的網絡計算技術與模式。
雲計算的關鍵技術:
(1)虛擬化:虛擬化技術是雲計算基礎架構的基石,是指將一台計算機虛擬為多台邏輯計算機,在一台計算機上同時運行多個邏輯計算機,每個邏輯計算機可運行不同的操作系統,並且應用程序都可以在相互獨立的空間內運行而互不影響,從而顯著提升計算機的工作效率。
(2)分布式存儲:面對“數據爆炸”的時代,集中式存儲已經無法滿足海量數據的存儲需求,分布式存儲應運而生。
(3)分布式計算:面對海量數據,傳統的單指令單數據流順序執行的方式已經無法滿足快速數據處理的要求,同時,我們也不能寄希望於通過硬件性能的不斷提升來滿足這種需求,因為晶體管電路已經逐漸接近其物理上的性能極限,摩爾定律已經開始慢慢失效。
(4)多租戶:多租戶技術目的在於使大量用戶能夠共享同一堆棧軟硬件資源,每個用戶按需使用資源,能夠對軟件服務進行客戶化配置,而不影響其他用戶的使用。
2.物聯網
物聯網的概念:物聯網是物物相連的互聯網,是互聯網的延伸,它利用局部網絡或互聯網等通信技術把傳感器、控制器、機器、人員和物等通過新的方式連在一起,形成人與物、物與物相連,實現信息化和遠程管理控制。
物聯網關鍵技術:
(1)識別和感知技術:二維碼、RFID、傳感器等。
(2)網絡與通信技術:藍牙、WiFi、互聯網、2G/3G/4G移動網路等。
(3)數據挖掘與融合技術:物聯網中存在大量數據來源、各種異構網絡和不同類型系統,如此大量的不同類型數據,如何有效整合、處理和挖掘,是物聯網處理層需要解決的關鍵技術問題。今天雲計算和大數據技術的出現,為物聯網數據存儲、處理和分析提供了強大的技術支撐,海量物聯網數據可以借助龐大的雲計算基礎設施實現廉價存儲,利用大數據技術實現快速處理和分析,滿足各種實際應用需求。
3.大數據與雲計算、物聯網的關系
雲計算為大數據提供了技術基礎,大數據為雲計算提供用武之地。
物聯網是大數據的重要來源,大數據技術為物聯網數據分析提供支撐。
雲計算為物聯網提供海量數據存儲能力,物聯網為雲計算技術提供了廣闊的應用空間。