Hadoop學習筆記—22.Hadoop2.x環境搭建與配置

本文轉載自查看原文 2016-10-22 15:59 8023 Hadoop/ 【016】雲計算與大數據/ YARN/ 大數據/ MapReduce

自從2015年花了2個多月時間把Hadoop1.x的學習教程學習了一遍，對Hadoop這個神奇的小象有了一個初步的了解，還對每次學習的內容進行了總結，也形成了我的一個博文系列《Hadoop學習筆記系列》。其實，早在2014年Hadoop2.x版本就已經開始流行了起來，並且已經成為了現在的主流。當然，還有一些非離線計算的框架如實時計算框架Storm，近實時計算框架Spark等等。相信了解Hadoop2.x的童鞋都應該知道2.x相較於1.x版本的更新應該不是一丁半點，最顯著的體現在兩點：

（1）HDFS的NameNode可以以集群的方式布署，增強了NameNodes的水平擴展能力和高可用性，分別是:HDFS Federation與HA；

（2）MapReduce將JobTracker中的資源管理及任務生命周期管理（包括定時觸發及監控），拆分成兩個獨立的組件，並更名為YARN（Yet Another Resource Negotiator）；

因此，我決定趁着現在又變成了單身狗（滿滿的都是傷感）的時機，把Hadoop2.x學習一下，也順帶分享一些學習筆記的文章與園友們分享。

至於Hadoop2.x到底相較於1.x有哪些改變，如果你不太知道，那么你可以先閱讀一下這篇文章《Hadoop2的改進內容簡介》大概了解一下，本篇內容將不會介紹這些，直接上環境搭建與配置的內容。

一、准備工作

　　（1）一台配置不錯的電腦或筆記本（主要是內存、內存、內存，重要的事情說三遍）

　　（2）一個你使用過的虛擬機軟件（可以是VMWare、Virtual Box或者其他的，我用的VMWare WorkStation）

　　（3）一個你使用過的SSH客戶端軟件（可以使XShell，XFtp、WinSCP等等，我用的XShell+XFtp）

　　（4）Hadoop2.4.1、JDK1.7的linux安裝包（當然你也可以直接在線下載）

　　當然，體貼的我已為你准備了Hadoop2.4.1和JDK1.7的包，你可以通過這個鏈接下載：點我下載

二、偽分布式搭建

　　2.1 基礎網絡配置

　　安裝完VMware Workstation之后，你的網絡適配器會多出來兩個，你要做的就是為多出來的第2個網卡設置靜態IP地址，我這里是Ethernet 3　　這里我們設置網關為192.168.22.1，為宿主機設置IP為192.168.22.2，也就是說我們的虛擬機必須要在192.168.22.x這個網段內。

　　然后我們再為虛擬機設置網絡連接方式，選擇VMNET8（NAT模式），如果你不知道NAT是什么意思，請百度一下。

　　2.2 為虛擬機安裝Linux鏡像

　　這里我們選擇的是CentOS，你也可以選擇其他的Linux發行版本。

　　2.3 設置靜態IP地址

　　輸入命令 setup -> 進入Device Configuration -> 輸入service network restart重啟網卡

　　另外，想要在宿主機訪問虛擬機，需要開放端口，為了方便，我們直接將虛擬機的防火牆關閉：sudo service iptables stop

　　檢查狀態：sudo chkconfig iptables off

　　2.4 設置完全命令行模式啟動

　　輸入命令 sudo vi /etc/inittab -> 修改id:3 -> 輸入reboot重啟虛擬機

　　2.5 使用XShell代替VMware直接操作

　　這個時候你就可以使用XShell而不再需要在VMware里直接敲命令了，你會發現XShell用起來很爽！

　　2.6 將hadoop用戶加入sudo用戶組

　　由於linux下root用戶的權限太大，經常使用root用戶會很不安全，所以我們一般使用一個一般用戶去操作，在用到需要高權限時使用sudo命令去執行。因此，我們這里需要將hadoop用戶加入sudo用戶組。

　　輸入命令 su -> vi /etc/sudoers -> 找到這一行：root ALL=(ALL) ALL

　　然后在它下面一行加上一行：hadoop ALL=(ALL) ALL

　　最后保存退出。

　　2.7 更改主機名與IP地址映射關系

　　（1） sudo vi /etc/sysconfig/network -> hadoop-master.manulife -> reboot
　（2） sudo vi /etc/hosts -> 加一行: 192.168.22.100 hadoop-master.manulife

　　2.8 建立一個專門放安裝包的文件夾（非必要）

　　（1） rm -rf P* D* Music/ Videos/ Templates/
　（2） mkdir app -> 安裝后的地方
　（3） mkdir local -> 放置安裝包的地方

　　2.9 安裝JDK

　　（1）上傳jdk到虛擬機，這里借助SFtp軟件

　　（2）解壓jdk：tar -zvxf jdk -C ../app/

　　（3）設置環境變量：

sudo vi /etc/profile
export JAVA_HOME=/home/hadoop/app/jdk1.7.0_65
export PATH=$PATH:$JAVA_HOME/bin;
source /etc/profile　　

　　2.10 安裝Hadoop

　　（1）上傳jdk到虛擬機，這里借助SFtp軟件

　　（2）解壓jdk：tar -zvxf hadoop -C ../app/

　　（3）刪除hadoop中share文件夾中的多余doc文件（非必要）：rm -rf doc

　　（4）設置hadoop中etc文件夾中的一些重要配置文件：cd etc -> hadoop-env.sh,core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml

　　hadoop-env.sh

vim hadoop-env.sh
#第27行
export JAVA_HOME=/home/hadoop/app/jdk　　

　　core-site.xml

<property>
     <name>fs.defaultFS</name>
     <value>hdfs://hadoop-master.manulife:9000</value>
  </property>
  
  <property>
      <name>hadoop.tmp.dir</name>
      <value>/home/hadoop/app/hadoop/tmp</value>
  </property>

　　hdfs-site.xml

<property>
     <name>dfs.replication</name>
     <value>1</value>
  </property>

　　yarn-site.xml

<property>
     <name>yarn.resourcemanager.hostname</name>
     <value>hadoop-master.manulife</value>
  </property>
  
  <property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
  </property>

　　mapred-site.xml (需要首先換個名字：mv mapred-site.xml.template mapred-site.xml)

<property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
  </property>

　　（5）設置環境變量

sudo vi /etc/profile

export JAVA_HOME=/usr/java/jdk1.7.0_65
export HADOOP_HOME=/itcast/hadoop-2.4.1
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile

　　（6）格式化NameNode

　　hadoop namenode -format

　　（7）啟動Hadoop兩大核心功能：HDFS與YARN

　　首先編輯slaves配置文件（這里我們的主節點既是DataNode又是NameNode）：vi slaves -> add hadoop-master.manulife

　　啟動HDFS：sbin/start-dfs.sh

　　啟動YARN：sbin/start-yarn.sh

　　驗證是否啟動：jps

　　（8）在宿主機中訪問Hadoop Manager

　　首先將虛擬機的IP地址和主機名加入Windows Hosts：windows/system32/etc -> 加一行 : 192.168.22.100 hadoop-master.manulife

　　打開瀏覽器輸入：http://hadoop-master.manulife:50070

　　2.11 HDFS簡單測試

　　上傳一個文件至HDFS : hadoop fs -put xxxx.tar.gz hdfs://hadoop-master.manulife:9000/
　從HDFS下載一個文件 : hadoop fs -get hdfs://hadoop-master.manulife:9000/xxxx.tar.gz

　　2.12 MapReduce簡單測試

　　這里直接運行一個hadoop自帶的求圓周率的example：

　　（1）cd /home/hadoop/app/hadoop/share/hadoop/mapreduce/
　（2）hadoop jar hadoop-mapreduce-examples-2.4.1.jar pi 5 5

　　2.13 SSH免密碼登錄

　　一般linux分布式集群中都會設置ssh免密碼登錄，這里我們首先將主節點設置為ssh免密碼登錄：

　　（1）ssh-keygen -t rsa
　（2）cd .ssh -> cp id_rsa.pub authorized_keys
　（3）ssh localhost

三、Java開發環境搭建

　　3.1 准備工作

　　3.2 使用Java API操作HDFS

　　3.3 簡單測試

四、完全分布式搭建

作者：周旭龍

出處：http://www.cnblogs.com/edisonchou/

本文版權歸作者和博客園共有，歡迎轉載，但未經作者同意必須保留此段聲明，且在文章頁面明顯位置給出原文鏈接。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hadoop學習筆記——環境搭建 Hadoop學習筆記—1.基本介紹與環境配置 Hadoop學習筆記(10) ——搭建源碼學習環境搭建Hadoop2.0（二）hadoop環境配置 Hadoop學習筆記—14.ZooKeeper環境搭建 Hadoop學習筆記(3)——分布式環境搭建 Hadoop學習筆記(4) ——搭建開發環境及編寫Hello World hadoop2.x學習筆記（一）：YARN Hadoop3集群搭建之——安裝hadoop，配置環境 Hadoop學習之路（八）在eclispe上搭建Hadoop開發環境