Hadoop:HDFS的數據復制


Hadoop認證培訓:HDFS的數據復制,HDFS被設計成在一個大集群中可以跨機器可靠地存儲海量的文件。它將每個文件存儲成Block序列,除了最后一個Block,所有的Block都是同樣的大小。文件的所有Block為了容錯都會被冗余復制存儲。每個文件的Block大小和Replication因子都是可配置的。

Replication因子在文件創建的時候會默認讀取客戶端的HDFS配置,然后創建,以后也可以改變。HDFS中的文件是write-one,並且嚴格要求在任何時候只有一個writer。HDFS數據冗余復制示意圖如3-6圖所示。

從圖3-6中可以看到,文件/user/nuoline/data/part-1的復制因子Replication值是2,塊的ID列表包括1和3,可以看到塊1和塊3分別被冗余備份了兩份數據塊;文件/user/nuoline/data/part-2的復制因子Replication值是3,塊的ID列表包括2、4、5,可以看到塊2、4、5分別被冗余復制了三份。在HDFS中,文件所有塊的復制會全權由NameNode進行管理,NameNode周期性地從集群中的每個DataNode接收心跳包和一個Blockreport。心跳包的接收表示該DataNode節點正常工作,而Blockreport包括了該DataNode上所有的Block組成的列表。來源:CUUG官網

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM