Hadoop HDFS負載均衡

轉載請注明出處：http://www.cnblogs.com/BYRans/

Hadoop HDFS

Hadoop 分布式文件系統（Hadoop Distributed File System），簡稱 HDFS，被設計成適合運行在通用硬件上的分布式文件系統。它和現有的分布式文件系統有很多的共同點。HDFS 是一個高容錯性的文件系統，提供高吞吐量的數據訪問，非常適合大規模數據集上的應用。

HDFS副本擺放策略

第一副本：放置在上傳文件的DataNode上；如果是集群外提交，則隨機挑選一台磁盤不太慢、CPU不太忙的節點上；
第二副本：放置在於第一個副本不同的機架的節點上；
第三副本：與第二個副本相同機架的不同節點上；
如果還有更多的副本：隨機放在節點中；
HDFS副本策略

需要注意的是：

HDFS中存儲的文件的副本數由上傳文件時設置的副本數決定。無論以后怎么更改系統副本系數，這個文件的副本數都不會改變；
在上傳文件時優先使用啟動命令中指定的副本數，如果啟動命令中沒有指定則使用hdfs-site.xml中dfs.replication設置的默認值；

HDFS負載均衡

Hadoop的HDFS集群非常容易出現機器與機器之間磁盤利用率不平衡的情況，例如：當集群內新增、刪除節點，或者某個節點機器內硬盤存儲達到飽和值。當數據不平衡時，Map任務可能會分配到沒有存儲數據的機器，這將導致網絡帶寬的消耗，也無法很好的進行本地計算。
當HDFS負載不均衡時，需要對HDFS進行數據的負載均衡調整，即對各節點機器上數據的存儲分布進行調整。從而，讓數據均勻的分布在各個DataNode上，均衡IO性能，防止熱點的發生。進行數據的負載均衡調整，必須要滿足如下原則：

數據平衡不能導致數據塊減少，數據塊備份丟失
管理員可以中止數據平衡進程
每次移動的數據量以及占用的網絡資源，必須是可控的
數據均衡過程，不能影響namenode的正常工作

Hadoop HDFS數據負載均衡原理

數據均衡過程的核心是一個數據均衡算法，該數據均衡算法將不斷迭代數據均衡邏輯，直至集群內數據均衡為止。該數據均衡算法每次迭代的邏輯如下：

步驟分析如下：

數據均衡服務（Rebalancing Server）首先要求 NameNode 生成 DataNode 數據分布分析報告,獲取每個DataNode磁盤使用情況
Rebalancing Server匯總需要移動的數據分布情況，計算具體數據塊遷移路線圖。數據塊遷移路線圖，確保網絡內最短路徑
開始數據塊遷移任務，Proxy Source Data Node復制一塊需要移動數據塊
將復制的數據塊復制到目標DataNode上
刪除原始數據塊
目標DataNode向Proxy Source Data Node確認該數據塊遷移完成
Proxy Source Data Node向Rebalancing Server確認本次數據塊遷移完成。然后繼續執行這個過程，直至集群達到數據均衡標准

**DataNode分組** 在第2步中，HDFS會把當前的DataNode節點,根據閾值的設定情況划分到Over、Above、Below、Under四個組中。在移動數據塊的時候，Over組、Above組中的塊向Below組、Under組移動。四個組定義如下：

HDFSGroup

Over組：此組中的DataNode的均滿足

DataNode_usedSpace_percent > Cluster_usedSpace_percent + threshold

Above組：此組中的DataNode的均滿足

Cluster_usedSpace_percent + threshold > DataNode_ usedSpace _percent > Cluster_usedSpace_percent

Below組：此組中的DataNode的均滿足

Cluster_usedSpace_percent > DataNode_ usedSpace_percent > Cluster_ usedSpace_percent – threshold

Under組：此組中的DataNode的均滿足

Cluster_usedSpace_percent – threshold > DataNode_usedSpace_percent

Hadoop HDFS 數據自動平衡腳本使用方法

在Hadoop中，包含一個start-balancer.sh腳本，通過運行這個工具，啟動HDFS數據均衡服務。該工具可以做到熱插拔，即無須重啟計算機和 Hadoop 服務。\(Hadoop_Home/bin 目錄下的 start-balancer.sh 腳本就是該任務的啟動腳本。啟動命令為：`\)Hadoop_home/bin/start-balancer.sh –threshold `

影響Balancer的幾個參數：

-threshold
- 默認設置：10，參數取值范圍：0-100
- 參數含義：判斷集群是否平衡的閾值。理論上，該參數設置的越小，整個集群就越平衡
dfs.balance.bandwidthPerSec
- 默認設置：1048576（1M/S）
- 參數含義：Balancer運行時允許占用的帶寬

示例如下：

#啟動數據均衡，默認閾值為 10%
$Hadoop_home/bin/start-balancer.sh

#啟動數據均衡，閾值 5%
bin/start-balancer.sh –threshold 5

#停止數據均衡
$Hadoop_home/bin/stop-balancer.sh

在hdfs-site.xml文件中可以設置數據均衡占用的網絡帶寬限制

<property>
    <name>dfs.balance.bandwidthPerSec</name>
    <value>1048576</value>
    <description> Specifies the maximum bandwidth that each datanode can utilize for the balancing purpose in term of the number of bytes per second. </description>
    </property>

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Hadoop：HDFS負載均衡 HDFS 03 - HDFS 的機制：副本機制、機架感知機制、負載均衡機制什么是負載均衡？什么是負載均衡負載均衡什么是負載均衡？負載均衡負載均衡什么是負載均衡 linux負載均衡（什么是負載均衡）