Hadoop HDFS負載均衡


Hadoop HDFS負載均衡


轉載請注明出處:http://www.cnblogs.com/BYRans/

Hadoop HDFS

Hadoop 分布式文件系統(Hadoop Distributed File System),簡稱 HDFS,被設計成適合運行在通用硬件上的分布式文件系統。它和現有的分布式文件系統有很多的共同點。HDFS 是一個高容錯性的文件系統,提供高吞吐量的數據訪問,非常適合大規模數據集上的應用。

HDFS副本擺放策略

第一副本:放置在上傳文件的DataNode上;如果是集群外提交,則隨機挑選一台磁盤不太慢、CPU不太忙的節點上;
第二副本:放置在於第一個副本不同的機架的節點上;
第三副本:與第二個副本相同機架的不同節點上;
如果還有更多的副本:隨機放在節點中;
HDFS副本策略

需要注意的是:

  • HDFS中存儲的文件的副本數由上傳文件時設置的副本數決定。無論以后怎么更改系統副本系數,這個文件的副本數都不會改變;
  • 在上傳文件時優先使用啟動命令中指定的副本數,如果啟動命令中沒有指定則使用hdfs-site.xml中dfs.replication設置的默認值;

HDFS負載均衡

Hadoop的HDFS集群非常容易出現機器與機器之間磁盤利用率不平衡的情況,例如:當集群內新增、刪除節點,或者某個節點機器內硬盤存儲達到飽和值。當數據不平衡時,Map任務可能會分配到沒有存儲數據的機器,這將導致網絡帶寬的消耗,也無法很好的進行本地計算。
當HDFS負載不均衡時,需要對HDFS進行數據的負載均衡調整,即對各節點機器上數據的存儲分布進行調整。從而,讓數據均勻的分布在各個DataNode上,均衡IO性能,防止熱點的發生。進行數據的負載均衡調整,必須要滿足如下原則:

  • 數據平衡不能導致數據塊減少,數據塊備份丟失
  • 管理員可以中止數據平衡進程
  • 每次移動的數據量以及占用的網絡資源,必須是可控的
  • 數據均衡過程,不能影響namenode的正常工作

Hadoop HDFS數據負載均衡原理

數據均衡過程的核心是一個數據均衡算法,該數據均衡算法將不斷迭代數據均衡邏輯,直至集群內數據均衡為止。該數據均衡算法每次迭代的邏輯如下:

Balancer邏輯

步驟分析如下:

  1. 數據均衡服務(Rebalancing Server)首先要求 NameNode 生成 DataNode 數據分布分析報告,獲取每個DataNode磁盤使用情況
  2. Rebalancing Server匯總需要移動的數據分布情況,計算具體數據塊遷移路線圖。數據塊遷移路線圖,確保網絡內最短路徑
  3. 開始數據塊遷移任務,Proxy Source Data Node復制一塊需要移動數據塊
  4. 將復制的數據塊復制到目標DataNode上
  5. 刪除原始數據塊
  6. 目標DataNode向Proxy Source Data Node確認該數據塊遷移完成
  7. Proxy Source Data Node向Rebalancing Server確認本次數據塊遷移完成。然后繼續執行這個過程,直至集群達到數據均衡標准

**DataNode分組** 在第2步中,HDFS會把當前的DataNode節點,根據閾值的設定情況划分到Over、Above、Below、Under四個組中。在移動數據塊的時候,Over組、Above組中的塊向Below組、Under組移動。四個組定義如下:

HDFSGroup

  • Over組:此組中的DataNode的均滿足

DataNode_usedSpace_percent > Cluster_usedSpace_percent + threshold

  • Above組:此組中的DataNode的均滿足

Cluster_usedSpace_percent + threshold > DataNode_ usedSpace _percent > Cluster_usedSpace_percent

  • Below組:此組中的DataNode的均滿足

Cluster_usedSpace_percent > DataNode_ usedSpace_percent > Cluster_ usedSpace_percent – threshold

  • Under組:此組中的DataNode的均滿足

Cluster_usedSpace_percent – threshold > DataNode_usedSpace_percent

Hadoop HDFS 數據自動平衡腳本使用方法

在Hadoop中,包含一個start-balancer.sh腳本,通過運行這個工具,啟動HDFS數據均衡服務。該工具可以做到熱插拔,即無須重啟計算機和 Hadoop 服務。\(Hadoop_Home/bin 目錄下的 start-balancer.sh 腳本就是該任務的啟動腳本。 啟動命令為:`\)Hadoop_home/bin/start-balancer.sh –threshold `

影響Balancer的幾個參數:

  • -threshold
    • 默認設置:10,參數取值范圍:0-100
    • 參數含義:判斷集群是否平衡的閾值。理論上,該參數設置的越小,整個集群就越平衡
  • dfs.balance.bandwidthPerSec
    • 默認設置:1048576(1M/S)
    • 參數含義:Balancer運行時允許占用的帶寬

示例如下:

#啟動數據均衡,默認閾值為 10%
$Hadoop_home/bin/start-balancer.sh

#啟動數據均衡,閾值 5%
bin/start-balancer.sh –threshold 5

#停止數據均衡
$Hadoop_home/bin/stop-balancer.sh

在hdfs-site.xml文件中可以設置數據均衡占用的網絡帶寬限制

<property>
    <name>dfs.balance.bandwidthPerSec</name>
    <value>1048576</value>
    <description> Specifies the maximum bandwidth that each datanode can utilize for the balancing purpose in term of the number of bytes per second. </description>
    </property>




免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM