Hadoop_05_運行 Hadoop 自帶 MapReduce程序


1. MapReduce使用

  MapReduce是Hadoop中的分布式運算編程框架,只要按照其編程規范,只需要編寫少量的業務邏輯代碼即可實現

一個強大的海量數據並發處理程序

2. 運行Hadoop自帶的MapReduce程序(word count單詞統計功能

  1.在HDFS中創建層級目錄,並且上傳文件到指定目錄:hadoop fs -mkdir -p /wordcount/input

  

  2.上傳文件到HDFS指定目錄:hadoop fs -put a.txt  b.txt  /wordcount/input

  

  3.運行MapReduce程序的自帶jar包:cd  /usr/local/src/hadoop-2.6.4/share/hadoop/mapreduce/

  運行:hadoop jar hadoop-mapreduce-examples-2.6.4.jar wordcount /wordcount/input  /wordcount/output

    wordcount:jar包中需要運行的主類

    /wordcount/input:wordcount主類需要的參數,指定數據文件目錄,統計里面的數據文件

    /wordcount/output:統計文件后的結果保存目錄,必須要求改目錄不存在

  4.查看輸出文件統計結果:hadoop fs -cat /wordcount/output/part-r-00000

    

自己寫MapReduce程序可參考這篇用MapReduce計算Pi的文章http://blog.csdn.net/mrbcy/article/details/61455917

  

 

  

 

  

 

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM