Hadoop特點


一:HDFS

1.HDFS上傳數據,會將文件切分成指定大小的數據塊,並以多副本的數據塊存儲在機器上.

2.

part0是指  副本有2個而且1,2有兩個副本

二.YARN

1.負責整個集群的管理和調度

YARN的特點

 擴展性,容錯性,多框架資源統一調度,支持多種不同的框架同時運行

 

 

 

 

 三.mapReduce

特點:擴展性,容錯性,海量數據的離線處理

wordcount單詞統計操作

先輸入-在分割-在map看在一個塊中出現了幾次-shuffing洗牌在將相同的數據放在一起-Reducing統計-最后統計

 

四:hadoop優勢

1.可以橫向擴展,進行計算

2.存儲在廉價的機器上面降低成本

3.成熟的生態圈

 

五:

1.hadoop生態系統開源社區活躍

2.囊括了大數據體系的方方面面

3.成熟的生態圈

 

六:

hadoop選型

apache hadoop(不推薦,依賴和沖突太多) 

CDH(推薦,安裝方便,cdh如果版本相同的話基本沒有沖突,cm(安裝集群的框架不開源)):

HDP(國內的話不經常用但是比apache用的多缺點(安裝和升級比較費勁))

七:

hadoop的使用案例

案例一:hadoop之消費大數據(電商用例) 

 根據歷時用例來預測用戶的消費情況

案例二:零售大數據'

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM