大家如果還沒配置過Hadoop的可以看我前兩篇文章。
驗證Hadoop分布式集群
首先在hdfs文件系統上創建兩個目錄,創建過程如下所示:
hadoop fs –mkdir /data/wordconut
hadoop fs –mkdir /output
hdfs中的/data/wordcount用來存放Hadoop自帶的WordCount例子的數據文件,程序運行的結果輸出到/output/wordcount目錄中,透過Web控制(http://master:50070)可以發現我們成功創建了兩個文件夾:
接下來將本地文件的數據上傳到HDFS文件夾中:
透過Web控制可以發現我們成功上傳了文件:
也可通過hadoop的hdfs命令在控制命令終端查看信息:
hadoop fs –ls /data/wordcount
運行Hadoop自帶的WordCount例子,執行如下命令:
hadoop jar ../share/hadoop/mapreduce/hadoop-mapreduce-xeamples-2.2.0.jar wordcount /data/wordcount /output/wordcount
(即hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.2.0-sources.jar org.apache.hadoop.examples.WordCount /input /output)
運行過程如下:
接下來使用“mr-jobhistory-daemon.sh”來啟動JobHistory Server:
./mr-jobhistory-daemon.sh start historyserver
啟動后可以通過http://master:19888 在Web控制台上看到JobHistory中的任務執行歷史信息:
點擊最近運行的WordCount作業進入歷史作業詳情
結束historyserver的命令如下所示:
./mr-jobhistory-daemon.sh stop historyserver
程序運行結束后我們可以執行一下命令查看運行結果:
也可通過HDFS控制台查看運行結果:
發現我們成功運行了WordCount作業。
至此,我們成功構建了Hadoop分布式集群並完成了測試!