HDFS參數調優總結
作者:尹正傑
版權聲明:原創作品,謝絕轉載!否則將追究法律責任。
一.DataNode參數調優
1>.dfs.blockreport.incremental.intervalMsec
如上圖所示,官方的默認值是0,意思是當datanode新寫一個塊時,會立即匯報給namenode。
博主推薦設置為500毫秒,就是當datanode新寫一個塊,不是立即匯報給namenode,而是要等待500毫秒,在此時間段內新寫的塊一次性匯報給namenode。該值不宜過大,如果你晚上報數據庫,NameNode以為你是沒有數據塊的,在這個期間NameNode可能會讓別的節點創建一個你現在已經有的數據塊喲。
2>.dfs.datanode.data.dir
如上圖所示,如果沒有配置數據節點的目錄,則數據節點的默認存儲位置在本地的"file://{hadoop.tmp.dir}/dfs/data"路徑。
生產環境中建議大家配置數據多目錄,多個目錄掛載到不同的磁盤上,以增加DataNode並發讀寫能力。比如生產環境中我們會將每塊10T數據盤單獨作成Raid 0,然后將多個不同磁盤掛載帶不同的目錄中。
3>.dfs.datanode.balance.bandwidthPerSec
如上圖所示,官方默認值是10M,根據每秒字節數指定每個數據節點可用於平衡目的的最大帶寬量。
博主推薦設置為100M,如果是都是交換機也是萬兆接口的話可以適當調大該值,只要它的帶寬不影響到咱們運行任務即可。
4>.
5>.
二.NameNode的參數調優
1>.
2>.
3>.