Hadoop：HDFS的數據復制

本文轉載自查看原文 2016-07-28 10:23 2593

Hadoop認證培訓：HDFS的數據復制，HDFS被設計成在一個大集群中可以跨機器可靠地存儲海量的文件。它將每個文件存儲成Block序列，除了最后一個Block，所有的Block都是同樣的大小。文件的所有Block為了容錯都會被冗余復制存儲。每個文件的Block大小和Replication因子都是可配置的。

Replication因子在文件創建的時候會默認讀取客戶端的HDFS配置，然后創建，以后也可以改變。HDFS中的文件是write-one，並且嚴格要求在任何時候只有一個writer。HDFS數據冗余復制示意圖如3-6圖所示。

從圖3-6中可以看到，文件/user/nuoline/data/part-1的復制因子Replication值是2，塊的ID列表包括1和3，可以看到塊1和塊3分別被冗余備份了兩份數據塊;文件/user/nuoline/data/part-2的復制因子Replication值是3，塊的ID列表包括2、4、5，可以看到塊2、4、5分別被冗余復制了三份。在HDFS中，文件所有塊的復制會全權由NameNode進行管理，NameNode周期性地從集群中的每個DataNode接收心跳包和一個Blockreport。心跳包的接收表示該DataNode節點正常工作，而Blockreport包括了該DataNode上所有的Block組成的列表。來源：CUUG官網

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hadoop-hdfs間文件復制【hadoop】python通過hdfs模塊讀hdfs數據 hadoop hdfs數據塊探索 Hadoop：HDFS數據存儲與切分大數據之--------hadoop存儲(HDFS) 五.hadoop 從mysql中讀取數據寫到hdfs Hadoop：HDFS數據副本存放策略 Hadoop權威指南:HDFS-寫入數據 Hadoop之HDFS的元數據冷備份(CheckPoint) hadoop hdfs 數據遷移到其他集群