Hadoop配置項整理(hdfs-site.xml)



 

Hadoop配置項整理(hdfs-site.xml)

類型:轉載  |  日期:2013-02-15 01:26  |  標簽: #hadoop

 

 

記錄一下Hadoop的配置和說明,用到新的配置項會補充進來,不定期更新。以配置文件名划分

以hadoop 1.x配置為例

hdfs-site.xml

 

 name  value Description 
dfs.default.chunk.view.size 32768 namenode的http訪問頁面中針對每個文件的內容顯示大小,通常無需設置。
dfs.datanode.du.reserved 1073741824 每塊磁盤所保留的空間大小,需要設置一些,主要是給非hdfs文件使用,默認是不保留,0字節
dfs.name.dir /opt/data1/hdfs/name,
/opt/data2/hdfs/name,
/nfs/data/hdfs/name
NN所使用的元數據保存,一般建議在nfs上保留一份,作為1.0的HA方案使用,也可以在一台服務器的多塊硬盤上使用
dfs.web.ugi nobody,nobody NN,JT等所使用的web tracker頁面服務器所使用的用戶和組
dfs.permissions true | false dfs權限是否打開,我一般設置false,通過開發工具培訓別人界面操作避免誤操作,設置為true有時候會遇到數據因為權限訪問不了。
dfs.permissions.supergroup supergroup 設置hdfs超級權限的組,默認是supergroup,啟動hadoop所使用的用戶通常是superuser。
dfs.data.dir /opt/data1/hdfs/data,
/opt/data2/hdfs/data,
/opt/data3/hdfs/data,
...
真正的datanode數據保存路徑,可以寫多塊硬盤,逗號分隔
dfs.datanode.data.dir.perm 755 datanode所使用的本地文件夾的路徑權限,默認755
dfs.replication 3 hdfs數據塊的復制份數,默認3,理論上份數越多跑數速度越快,但是需要的存儲空間也更多。有錢人可以調5或者6
dfs.replication.max 512 有時dn臨時故障恢復后會導致數據超過默認備份數。復制份數的最多數,通常沒什么用,不用寫配置文件里。
dfs.replication.min 1 最小份數,作用同上。
dfs.block.size 134217728 每個文件塊的大小,我們用128M,默認是64M。這個計算需要128*1024^2,我碰上過有人直接寫128000000,十分浪漫。
dfs.df.interval 60000 磁盤用量統計自動刷新時間,單位是毫秒。
dfs.client.block.write.retries 3 數據塊寫入的最多重試次數,在此次數之前不會捕獲失敗。
dfs.heartbeat.interval 3 DN的心跳檢測時間間隔。秒
dfs.namenode.handler.count 10 NN啟動后展開的線程數。
dfs.balance.bandwidthPerSec 1048576 做balance時所使用的每秒最大帶寬,使用字節作為單位,而不是bit
dfs.hosts /opt/hadoop/conf/hosts.allow 一個主機名列表文件,這里的主機是允許連接NN的,必須寫絕對路徑,文件內容為空則認為全都可以。
dfs.hosts.exclude /opt/hadoop/conf/hosts.deny 基本原理同上,只不過這里放的是禁止訪問NN的主機名稱列表。這在從集群中摘除DN會比較有用。
dfs.max.objects 0 dfs最大並發對象數,HDFS中的文件,目錄塊都會被認為是一個對象。0表示不限制
dfs.replication.interval 3 NN計算復制塊的內部間隔時間,通常不需寫入配置文件。默認就好
dfs.support.append true | false 新的hadoop支持了文件的APPEND操作,這個就是控制是否允許文件APPEND的,但是默認是false,理由是追加還有bug。
dfs.datanode.failed.volumes.tolerated 0 能夠導致DN掛掉的壞硬盤最大數,默認0就是只要有1個硬盤壞了,DN就會shutdown。
dfs.secondary.http.address 0.0.0.0:50090 SNN的tracker頁面監聽地址和端口
dfs.datanode.address 0.0.0.0:50010 DN的服務監聽端口,端口為0的話會隨機監聽端口,通過心跳通知NN
dfs.datanode.http.address 0.0.0.0:50075 DN的tracker頁面監聽地址和端口
dfs.datanode.ipc.address 0.0.0.0:50020 DN的IPC監聽端口,寫0的話監聽在隨機端口通過心跳傳輸給NN
dfs.datanode.handler.count 3 DN啟動的服務線程數
dfs.http.address 0.0.0.0:50070 NN的tracker頁面監聽地址和端口
dfs.https.enable true | false NN的tracker是否監聽在HTTPS協議,默認false
dfs.datanode.https.address 0.0.0.0:50475 DN的HTTPS的tracker頁面監聽地址和端口
dfs.https.address 0.0.0.0:50470 NN的HTTPS的tracker頁面監聽地址和端口

 

主要配置里會用到的大概就是這些了,還有一些https certfile和一些internal時間配置的,不常用的就不寫了。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM