大數據的關鍵技術:數據采集,數據存儲和管理,數據處理和分析,數據隱私和安全


分布四個部分

 

1.   數據采集

通過爬蟲工具,ETL工具獲取數據,然后經過清洗、轉換和集成將數據加載到數據倉庫或者數據集市中。

extract, transform,load

 

2.  數據存儲和管理

典型的存儲地方: 文件系統和數據庫

由於海量的數據導致單機存儲的方式不夠用,轉而存到多個機器上(甚至上百台機器): 分布式文件系統和分布式數據庫(分布式存儲技術)

原有的關系型數據庫也不能支持現有的海量數據,現在以Nosql為基礎的非關系型數據庫存儲了大概90%的數據量。

 

3.  數據處理和分析

原有的單機計算方式已經解決不了那么海量的數據了,如何實現實時高效的計算(分布式處理技術)

現在分布式架構的mapreduce、saprk等可以解決大數據的計算問題

 

4. 數據隱私和安全

由於數據源的多樣性,誕生了

隱私數據保護體系

數據安全保護體系

 

 

這四個部分最重要的是第2和第3部分

第2的分布式存儲技術--------------將數據分布式的存儲

google公司提出GFS

hadoop中的HDFS

第3的分布式處理技術------------在多台機器上計算同一個任務(數據在哪台機器上,就在哪台機器上進行計算)

google公司提出MAPReduce

hadoop開源實現了

可以看出hadoop包含了兩塊,存儲方式HDFS,處理方式mapreduce

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM