Hadoop jobhistory歷史服務器


Hadoop自帶了一個歷史服務器,可以通過歷史服務器查看已經運行完的Mapreduce作業記錄,比如用了多少個Map、用了多少個Reduce、作業提交時間、作業啟動時間、作業完成時間等信息。默認情況下,Hadoop歷史服務器是沒有啟動的,我們可以通過下面的命令來啟動Hadoop歷史服務器

$ sbin/mr-jobhistory-daemon.sh  start historyserver

這樣我們就可以在相應機器的19888端口上打開歷史服務器的WEB UI界面。可以查看已經運行完的作業情況。歷史服務器可以單獨在一台機器上啟動,主要是通過以下的參數配置:

<property>
    <name>mapreduce.jobhistory.address</name>
    <value>0.0.0.0:10020</value>
</property>

<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>0.0.0.0:19888</value>
</property>

上面的參數是在mapred-site.xml文件中進行配置,mapreduce.jobhistory.address和mapreduce.jobhistory.webapp.address默認的值分別是0.0.0.0:10020和0.0.0.0:19888,大家可以根據自己的情況進行相應的配置,參數的格式是host:port。配置完上述的參數之后,重新啟動Hadoop jobhistory,這樣我們就可以在mapreduce.jobhistory.webapp.address參數配置的主機上對Hadoop歷史作業情況經行查看。

很多人就會問了,這些歷史數據是存放在哪里的?是存放在HDFS中的,我們可以通過下面的配置來設置在HDFS的什么目錄下存放歷史作業記錄:

<property>
    <name>mapreduce.jobhistory.done-dir</name>
    <value>${yarn.app.mapreduce.am.staging-dir}/history/done</value>
</property>

<property>
    <name>mapreduce.jobhistory.intermediate-done-dir</name>
    <value>${yarn.app.mapreduce.am.staging-dir}
                        /history/done_intermediate</value>
</property>

<property>
    <name>yarn.app.mapreduce.am.staging-dir</name>
    <value>/tmp/hadoop-yarn/staging</value>
</property>

 

但是注意JobHistory的市區是HKT,而ResourceManager的市區是GMT,不在一個是去,看id來查看吧。

sbin/mr-jobhistory-daemon.sh  start historyserver

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM