【圖文詳解】Hadoop集群搭建（CentOs6.3）

本文轉載自查看原文 2018-04-29 13:45 1568 Linux/ Hadoop

本文主要詳細地描述了hadoop集群的搭建以及一些配置文件的說明，用於自己復習以及供新人學習，若有錯誤之處還請指出。

前期准備

先給出我的集群架構：

到hadoop官網下載好hadoop安裝包http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz
裝好四台虛擬機（我的四台虛擬機是CentOs6.3系統）
四台虛擬機都裝好jdk
四台虛擬機都配好免密登錄
四台虛擬機都配置好ip地址和主機名映射關系(以下是我的地址映射關系)

vim /etc/hosts
```
  192.168.25.13	mini1
  192.168.25.14	mini2
  192.168.25.15	mini3
  192.168.25.16	mini4
```

以上步驟有不會的可查看我的其他幾篇博客：

Linux下的常用配置

Linux下配置免密登錄

1、將hadoop安裝包上傳到mini1上，解壓后改名，並創建目錄hadoopdata與hadoop目錄平行

tar -zxvf hadoop-2.6.5.tar.gz -C /root/apps/
cd /root/apps/
mv hadoop-2.6.5 hadoop
mkdir hadoopdata

2、進入hadoop配置文件目錄下,可看到以下配置文件

cd hadoop/etc/hadoop/

3、修改hadoop-env.sh配置文件

vim hadoop-env.sh
#寫上自己的JAVA_HOME

4、修改core-site.xml配置文件

vim core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://mini1:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/root/apps/hadoopdata</value>
</property>
</configuration>

配置說明：

fs.defaultFS：hadoop使用什么文件系統
hdfs://mini1:9000：指定hadoop系統使用hdfs文件系統，並指明namenode為mini1，客戶端訪問端口為9000

hadoop.tmp.dir：hadoop文件存儲目錄

有2個參數可配置，但一般來說我們不做修改。
fs.checkpoint.period表示多長時間記錄一次hdfs的鏡像,默認是1小時。
fs.checkpoint.size表示鏡像文件快大小，默認64M。

<property>
<name>fs.checkpoint.period</name>
<value>3600</value>
</property>

<property>
<name>fs.checkpoint.size</name>
<value>67108864</value>
</property>

5、修改hdfs-site.xml(可不做任何配置，使用默認)

vim hdfs-site.xml

<configuration>

<property>
<name>dfs.namenode.name.dir</name>
<value>/root/apps/hadoopdata/name</value>
</property>

<property>
<name>dfs.datanode.data.dir</name>
<value>/root/apps/hadoopdata/data</value>
</property>

<property>
<name>dfs.replication</name>
<value>3</value>
</property>

</configuration>

配置說明：

dfs.namenode.name.dir：namenode節點的數據存放目錄
dfs.datanode.data.dir：datanode節點的數據存放目錄
dfs.replication：集群中hdfs保存數據的副本數

6、更改mapred-site.xml.template的配置文件名，並進行配置

mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

配置說明：

mapreduce.framework.name：使用yarn運行mapreduce程序

7、修改yarn-site.xml配置文件

vim yarn-site.xml

<configuration>

<property>
<name>yarn.resourcemanager.hostname</name>
<value>mini1</value>
</property>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

配置說明：

yarn.resourcemanager.hostname：指定YARN的老大（ResourceManager）的地址
yarn.nodemanager.aux-services：指定reducer獲取數據的方式

8、修改slaves文件

vim slaves
# 在此文件下寫入需要啟動datanode和nodemanager的機器（往往datanode和nodemanager在一台機器上啟動），一行代表一台機器。

9、將hadoop添加到環境變量，並重新加載環境變量

vim /etc/profile

export HADOOP_HOME=/itcast/hadoop-2.4.1
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile

重要！重要！重要！！！

Apache提供的hadoop本地庫是32位的，而在64位的服務器上就會有問題，因此需要自己對源碼進行編譯64位的版本。

自己編譯比較麻煩,可以去網站：http://dl.bintray.com/sequenceiq/sequenceiq-bin/ 下載對應的編譯版本。

准備好64位的lib包后做以下操作：

#解壓到已經安裝好的hadoop安裝目錄的lib/native 和 lib目錄下
tar -zxvf hadoop-native-64-2.6.0.tar -C hadoop/lib/native 
tar -zxvf hadoop-native-64-2.6.0.tar -C hadoop/lib
#配置環境變量 
vi /etc/profile 
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native  
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib" 
source /etc/profile
#hadoop檢測本地庫
hadoop checknative –a

10、將hadoop和配置文件分別分發給另外三台機器（mini2，mini3，mini4）

scp -r /root/apps/hadoop mini2:/root/apps/
scp -r /root/apps/hadoop mini3:/root/apps/
scp -r /root/apps/hadoop mini4:/root/apps/

scp /etc/profile mini2:/etc/
scp /etc/profile mini3:/etc/
scp /etc/profile mini4:/etc/

不要忘記三台機器都要重新加載一下配置文件

11、初始化HDFS

hadoop  namenode  -format

12、批量啟動/停止

#批量啟動hdfs
start-dfs.sh
#批量停止hdfs
stop-dfs.sh

#批量啟動yarn
strat-yarn.sh
#批量停止yarn
stop-yarn.sh

#單獨啟動或停止hdfs，yarn
hadoop-daemon.sh start namenode		hadoop-daemon.sh stop namenode
hadoop-daemon.sh start datanode		hadoop-daemon.sh stop datanode

hadoop-daemon.sh start resourcemanager	hadoop-daemon.sh stop resourcemanager
hadoop-daemon.sh start nodemanager		hadoop-daemon.sh stop nodemanager

總結

官網提供的版本本地庫是32位的，在64位主機環境下無法執行。需要下載hadoop源碼進行編譯。
自己編譯參考https://jingyan.baidu.com/article/ce436649fea8533772afd365.html
配置文件hdfs-site.xml可不做任何配置，使用默認即可
集群中每台機器都要記得修改/etc/hosts文件
集群中所有的機器配置環境變量后不要忘記source一下（因為本文的環境變量文件是通過scp命令傳給各台機器的，很容易忘記source）
配置免密登錄的時候不要忘記本機也配置上（將mini1的公鑰發給mini1）（ssh-copy-id mini1）
如果哪台機器啟動出錯，可查看相應機器下的日志文件，根據錯誤信息百度查詢解決方法（/root/apps/hadoop/logs/）(查看.log結尾的日志文件)
嚴格按照上述流程安裝（包括目錄創建以及目錄的位置），可順利完成集群的搭建

問題解決

datanode無法啟動

原因：

初始化工作目錄結構（hdfs namenode -format）只是初始化了namenode的工作目錄，而datanode的工作目錄是在datanode啟動后自己初始化的。
namenode在format初始化的時候會形成兩個標識：
    blockPoolId,
    clusterId.

新的datanode加入時，會獲取這兩個標識作為自己工作目錄中的標
識。一旦namenode重新format后，namenode的身份標識已變，而
datanode如果依然持有原來的id，就不會被namenode識別。
解決方法：

將datanode機器上的工作目錄刪掉，重新啟動datanode，
它會重新創建工作目錄，並獲取namenode的標識。

集群中各個端口

更多配置文件信息參考：https://blog.csdn.net/cuitaixiong/article/details/51591410

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 配置CentOS6.3 NFS CentOS6.3 LAMP運營環境安裝虛擬機下自定義安裝CentOS6.3安裝配置巨詳細圖文教程[VMware] centos6.3安裝啟動使用PostgreSQL 9.2 centos6.3下安裝FTP客戶端命令 hadoop集群搭建--CentOS部署Hadoop服務 Hadoop 三台主機集群搭建詳解 CentOS 搭建Graylog集群詳解 CentOS6.3 重啟后/etc/resolv.conf 被還原解決辦法(轉) 給VMware下的Linux擴展磁盤空間（以CentOS6.3為例）