分布四個部分
1. 數據采集
通過爬蟲工具,ETL工具獲取數據,然后經過清洗、轉換和集成將數據加載到數據倉庫或者數據集市中。
extract, transform,load
2. 數據存儲和管理
典型的存儲地方: 文件系統和數據庫
由於海量的數據導致單機存儲的方式不夠用,轉而存到多個機器上(甚至上百台機器): 分布式文件系統和分布式數據庫(分布式存儲技術)
原有的關系型數據庫也不能支持現有的海量數據,現在以Nosql為基礎的非關系型數據庫存儲了大概90%的數據量。
3. 數據處理和分析
原有的單機計算方式已經解決不了那么海量的數據了,如何實現實時高效的計算(分布式處理技術)
現在分布式架構的mapreduce、saprk等可以解決大數據的計算問題
4. 數據隱私和安全
由於數據源的多樣性,誕生了
隱私數據保護體系
數據安全保護體系
這四個部分最重要的是第2和第3部分
第2的分布式存儲技術--------------將數據分布式的存儲
google公司提出GFS
hadoop中的HDFS
第3的分布式處理技術------------在多台機器上計算同一個任務(數據在哪台機器上,就在哪台機器上進行計算)
google公司提出MAPReduce
hadoop開源實現了
可以看出hadoop包含了兩塊,存儲方式HDFS,處理方式mapreduce
