name | value | Description |
hadoop.job.history.location | job歷史文件保存路徑,無可配置參數,也不用寫在配置文件里,默認在logs的history文件夾下。 | |
hadoop.job.history.user.location | 用戶歷史文件存放位置 | |
io.sort.factor | 30 | 這里處理流合並時的文件排序數,我理解為排序時打開的文件數 |
io.sort.mb | 600 | 排序所使用的內存數量,單位兆,默認1,我記得是不能超過mapred.child.java.opt設置,否則會OOM |
mapred.job.tracker | hadoopmaster:9001 | 連接jobtrack服務器的配置項,默認不寫是local,map數1,reduce數1 |
mapred.job.tracker.http.address | 0.0.0.0:50030 | jobtracker的tracker頁面服務監聽地址 |
mapred.job.tracker.handler.count | 15 | jobtracker服務的線程數 |
mapred.task.tracker.report.address | 127.0.0.1:0 | tasktracker監聽的服務器,無需配置,且官方不建議自行修改 |
mapred.local.dir | /data1/hdfs/mapred/local, /data2/hdfs/mapred/local, ... |
mapred做本地計算所使用的文件夾,可以配置多塊硬盤,逗號分隔 |
mapred.system.dir | /data1/hdfs/mapred/system, /data2/hdfs/mapred/system, ... |
mapred存放控制文件所使用的文件夾,可配置多塊硬盤,逗號分隔。 |
mapred.temp.dir | /data1/hdfs/mapred/temp, /data2/hdfs/mapred/temp, ... |
mapred共享的臨時文件夾路徑,解釋同上。 |
mapred.local.dir.minspacestart | 1073741824 | 本地運算文件夾剩余空間低於該值則不在本地做計算。字節配置,默認0 |
mapred.local.dir.minspacekill | 1073741824 | 本地計算文件夾剩余空間低於該值則不再申請新的任務,字節數,默認0 |
mapred.tasktracker.expiry.interval | 60000 | TT在這個時間內沒有發送心跳,則認為TT已經掛了。單位毫秒 |
mapred.map.tasks | 2 | 默認每個job所使用的map數,意思是假設設置dfs塊大小為64M,需要排序一個60M的文件,也會開啟2個map線程,當jobtracker設置為本地是不起作用。 |
mapred.reduce.tasks | 1 | 解釋同上 |
mapred.jobtracker.restart.recover | true | false | 重啟時開啟任務恢復,默認false |
mapred.jobtracker.taskScheduler | org.apache.hadoop.mapred. CapacityTaskScheduler org.apache.hadoop.mapred. JobQueueTaskScheduler org.apache.hadoop.mapred. FairScheduler |
重要的東西,開啟任務管理器,不設置的話,hadoop默認是FIFO調度器,其他可以使用公平和計算能力調度器 |
mapred.reduce.parallel.copies | 10 | reduce在shuffle階段使用的並行復制數,默認5 |
mapred.child.java.opts | -Xmx2048m -Djava.library.path= |
每個TT子進程所使用的虛擬機內存大小 |
tasktracker.http.threads | 50 | TT用來跟蹤task任務的http server的線程數 |
mapred.task.tracker.http.address | 0.0.0.0:50060 | TT默認監聽的httpIP和端口,默認可以不寫。端口寫0則隨機使用。 |
mapred.output.compress | true | false | 任務結果采用壓縮輸出,默認false,建議false |
mapred.output.compression.codec | org.apache.hadoop.io. compress.DefaultCodec |
輸出結果所使用的編解碼器,也可以用gz或者bzip2或者lzo或者snappy等 |
mapred.compress.map.output | true | false | map輸出結果在進行網絡交換前是否以壓縮格式輸出,默認false,建議true,可以減小帶寬占用,代價是會慢一些。 |
mapred.map.output.compression.codec | com.hadoop.compression. lzo.LzoCodec |
map階段壓縮輸出所使用的編解碼器 |
map.sort.class | org.apache.hadoop.util. QuickSort |
map輸出排序所使用的算法,默認快排。 |
mapred.hosts | conf/mhost.allow | 允許連接JT的TT服務器列表,空值全部允許 |
mapred.hosts.exclude | conf/mhost.deny | 禁止連接JT的TT列表,節點摘除是很有作用。 |
mapred.queue.names | ETL,rush,default | 配合調度器使用的隊列名列表,逗號分隔 |
mapred.tasktracker.map. tasks.maximum |
12 | 每服務器允許啟動的最大map槽位數。 |
mapred.tasktracker.reduce. tasks.maximum |
6 | 每服務器允許啟動的最大reduce槽位數 |
撿一些比較重要的,用的多的配置,官網建議的專家配置項基本沒寫上,改壞了就不好玩了。