大數據的概念和基本技術的通俗的解釋


大數據,很明顯從字面上理解就是大量的數據,海量的數據。大,意思就是數據的量級很大,不上TB都不好意思說是大數據。數據,狹義上理解就是12345那么些數據,畢竟計算機底層是二進制來存的,那么在大數據領域,數據就不僅僅包括數字這些,它可以是所有格式的東西,比如日志,音頻視頻,文件等等。

所以,大數據從字面上理解就是海量的數據,技術上它包括這些海量數據的采集,過濾,清洗,存儲,處理,查看等等部分,每一個部分包括一些大數據的相關技術框架來支持。

當然了,關於這些只是大數據的邊角料,數據資料是一直在更新完善的,大數據資料庫是收集資料、傳輸資料、存儲資料之后再挖掘資料、分析資料、展示資料,這一系列的步驟都是非常關鍵的,也是密不可分的。

都是需要有着龐大的數據來源,不僅如此,大數據和雲計算也是有着非常密切的關系的,比如,大數據的分布式存儲以及分布式計算都是雲計算的重要技術。

大數據具有4大特征,也就是快速化、多樣化、大量化以及價值高和密度低,快速化是指的互聯網連接設備數量的增長為我們帶來更高速數據的處理。

而多樣化則是指的數據的來源多,格式也多,來源具體到生活中包括搜索引擎的信息來源、社交網絡信息來源、通話記錄等都是大數據信息的來源。

當然了,關於這些只是大數據的邊角料,數據資料是一直在更新完善的,大數據資料庫是收集資料、傳輸資料、存儲資料之后再挖掘資料、分析資料、展示資料,這一系列的步驟都是非常關鍵的,也是密不可分的。

都是需要有着龐大的數據來源,不僅如此,大數據和雲計算也是有着非常密切的關系的,比如,大數據的分布式存儲以及分布式計算都是雲計算的重要技術。

大數據具有4大特征,也就是快速化、多樣化、大量化以及價值高和密度低,快速化是指的互聯網連接設備數量的增長為我們帶來更高速數據的處理。

而多樣化則是指的數據的來源多,格式也多,來源具體到生活中包括搜索引擎的信息來源、社交網絡信息來源、通話記錄等都是大數據信息的來源。

大數據分析目前存在以下三個問題

數據存儲問題:隨着技術不斷發展,數據量從TB上升至PB,EB量級,如果還用傳統的數據存儲方式,必將給大數據分析造成諸多不便,這就需要借助數據的動態處理技術,即隨着數據的規律性變更和顯示需求,對數據進行非定期的處理。同時,數量極大的數據不能直接使用傳統的結構化數據庫進行存儲,人們需要探索一種適合大數據的數據儲存模式,也是當下應該着力解決的一大難題。

分析資源調度問題:大數據產生的時間點,數據量都是很難計算的,這就是大數據的一大特點,不確定性。所以我們需要確立一種動態響應機制,對有限的計算、存儲資源進行合理的配置及調度。另外,如何以最小的成本獲得最理想的分析結果也是一個需要考慮的問題。

專業的分析工具:在發展數據分析技術的同時,傳統的軟件工具不再適用。目前人類科技尚不成熟,距離開發出能夠滿足大數據分析需求的通用軟件還有一定距離。 如若不能對這些問題做出處理,在不久的將來大數據的發展就會進入瓶頸,甚至有可能出現一段時間的滯留期,難以持續起到促進經濟發展的作用。



 


 
好文要頂  關注我  收藏該文   


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM