Hadoop window win10 基礎環境搭建(2.8.1)


下面運行步驟除了配置文件有部分改動,其他都是參照hadoop下載解壓的share/doc/index.html。




hadoop下載:http://apache.opencas.org/hadoop/common/

解壓至無空格目錄下即可,下面是目錄結構:


下面配置windows環境:

Java JDK :

我采用的是1.8的,配置JAVA_HOME,如果默認安裝,會安裝在C:\Program Files\Java\jdk1.8.0_51。此目錄存在空格,啟動hadoop時將報錯,JAVA_HOME is incorrect ...此時需要將環境變量JAVA_HOME值修改為:C:\Progra~1\Java\jdk1.8.0_51,Program Files可以有Progra~代替。

Hadoop 環境變量: 

新建HADOOP_HOME,指向hadoop解壓目錄,如:D:/hadoop。path環境變量中增加:%HADOOP_HOME%\bin;。

Hadoop 依賴庫:

winutils相關,hadoop在windows上運行需要winutils支持和hadoop.dll等文件,下載地址:http://download.csdn.net/detail/fly_leopard/9503059

注意hadoop.dll等文件不要與hadoop沖突。為了不出現依賴性錯誤可以將hadoop.dll放到c:/windows/System32下一份。


hadoop環境測試

起一個cmd窗口,起到hadoop/bin下,hadoop version,顯示如下:



hadoop基本文件配置:hadoop配置文件位於:hadoop/etc/hadoop下

core-site.xml / hdfs-site.xml / mapred-site.xml / yarn-site.xml

core-site.xml:

[html]  view plain  copy
 print ?
  1. <configuration>  
  2.   
  3.    <property>  
  4.   
  5.        <name>fs.defaultFS</name>  
  6.   
  7.        <value>hdfs://localhost:9000</value>  
  8.   
  9.    </property>  
  10.   
  11. </configuration>  

hdfs-site.xml:

 

[html]  view plain  copy
 print ?
  1. <configuration>  
  2.   
  3.        <property>  
  4.   
  5.                <name>dfs.replication</name>  
  6.   
  7.                 <value>1</value>  
  8.   
  9.        </property>  
  10.   
  11.        <property>  
  12.   
  13.                 <name>dfs.namenode.name.dir</name>  
  14.   
  15.                <value>file:/hadoop/hadoop272/data/dfs/namenode</value>  
  16.   
  17.        </property>  
  18.   
  19.        <property>  
  20.   
  21.                <name>dfs.datanode.data.dir</name>  
  22.   
  23.                <value>file:/hadoop/hadoop272/data/dfs/datanode</value>  
  24.   
  25.        </property>  
  26.   
  27. </configuration>  

mapred-site.xml:

[html]  view plain  copy
 print ?
  1. <configuration>  
  2.   
  3.        <property>  
  4.   
  5.           <name>mapreduce.framework.name</name>  
  6.   
  7.           <value>yarn</value>  
  8.   
  9.        </property>  
  10.   
  11. </configuration>  
  12.   
  13. yarn-site.xml:  
  14.   
  15. <configuration>  
  16.   
  17.        <property>  
  18.   
  19.           <name>yarn.nodemanager.aux-services</name>  
  20.   
  21.           <value>mapreduce_shuffle</value>  
  22.   
  23.        </property>  
  24.   
  25.        <property>  
  26.   
  27.           <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>  
  28.   
  29.           <value>org.apache.hadoop.mapred.ShuffleHandler</value>  
  30.   
  31.        </property>  
  32.   
  33. </configuration>  

格式化系統文件:

hadoop/bin下執行 hdfs namenode -format

待執行完畢即可,不要重復format。

格式化完成后到hadoop/sbin下執行 start-dfs啟動hadoop

訪問:http://localhost:50070



(不是必須的 ) 創建目錄:用於輸入和輸出,Linux上是/user/用戶名/xx windows上可能沒具體要求,我創建也是按照liunx目錄方式的。參照的api doc上面


創建完成可以通過hdfs dfs-ls 目錄名稱查看,也可以在瀏覽器中查看創建的目錄或文件


input輸入文件到目錄:login_weibo2是我自己創建的文本文件,位於hadoop一個盤的。此處是D:/hadoop/login_weibo2


如果了解命令參數輸入hdfs dfs回車查看dfs命令參數 。hdfs dfs -put回車查看put相關參數。其他命令也是這樣。

查看input輸入的文件內容:


運行hadoop給的examples,做個參考,運行下面命令等待執行完成。hadoop jar jar文件位置 grep 輸入目錄(包含被處理文件的目錄)  輸出目錄(運行結果輸出目錄)


然后查看文件夾下多了些東西,就是運行結果輸出目錄,結果般存在part-r-xxxx里面。


在hadoop/sbin下啟動start-yarn,訪問http://localhost:8088可查看 資源、節點管理

Tip:
(1)自己按照這個帖子配置好了,也啟動成功了,因此放到第一個,我用的版本的2.8.1,執行啟動的時候不要先入為主的認為切換到bin目錄,實際是切換到sbin目錄!
(2)至於“winutils”和“hadoop.dll”的文件下載,文中地址失效了!可以去這個地址https://github.com/steveloughran/winutils下載,而且下載的時候不要用右鍵-->另存為,而是要點擊“winutils.exe”后到頁面中找到Download按鈕下載!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM