一:HDFS
1.HDFS上傳數據,會將文件切分成指定大小的數據塊,並以多副本的數據塊存儲在機器上.
2.
part0是指 副本有2個而且1,2有兩個副本
二.YARN
1.負責整個集群的管理和調度
YARN的特點
擴展性,容錯性,多框架資源統一調度,支持多種不同的框架同時運行
三.mapReduce
特點:擴展性,容錯性,海量數據的離線處理
wordcount單詞統計操作
先輸入-在分割-在map看在一個塊中出現了幾次-shuffing洗牌在將相同的數據放在一起-Reducing統計-最后統計
四:hadoop優勢
1.可以橫向擴展,進行計算
2.存儲在廉價的機器上面降低成本
3.成熟的生態圈
五:
1.hadoop生態系統開源社區活躍
2.囊括了大數據體系的方方面面
3.成熟的生態圈
六:
hadoop選型
apache hadoop(不推薦,依賴和沖突太多)
CDH(推薦,安裝方便,cdh如果版本相同的話基本沒有沖突,cm(安裝集群的框架不開源)):
HDP(國內的話不經常用但是比apache用的多缺點(安裝和升級比較費勁))
七:
hadoop的使用案例
案例一:hadoop之消費大數據(電商用例)
根據歷時用例來預測用戶的消費情況
案例二:零售大數據'