Hadoop+Spark分布式集群環境搭建


  Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平台,而Spark 是一個新興的大數據處理通用引擎,提供了分布式的內存抽象。

下面使用在同一個局域網下的兩台電腦搭建分布式計算的環境:

  其中JDK、Hadoop、Spark都已經在兩台電腦上安裝好。

  一台Ubuntu主機系統Master,IP地址假設為:192.168.1.101(ifconfig查看IP地址)

  一台Ubuntu主機系統Slave  ,IP地址假設為:192.168.1.108

  (互ping一下,測試能否ping通)

修改主機名(方便區分主機):

sudo vim /etc/hostname #分別修改為MasterSlave

修改完后分別重啟一下,在終端Shell中可看到機器名的變化。

修改兩台電腦的/etc/hosts文件,

sudo vim /etc/hosts

添加同樣的配置:

127.0.0.1 localhost
192.168.1.101 Master
192.168.1.108 Slave

配置完后在Master上檢測一下能否ping通:ping Slave

配置ssh無密碼登錄本機和訪問集群機器

sudo apt-get openssh-server #若未安裝ssh需先安裝
ssh-keygen -t rsa -P ""
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys #生成ssh公鑰

#將公鑰發送給Slave
scp ~/.ssh/id_rsa.pub Slave:/home/zj

在Slave電腦上將Master的公鑰加入到該節點:

cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

在Master電腦上執行命令:ssh Slave,測試能否用ssh登錄Slave主機。

Hadoop集群配置

在Master上修改Hadoop的配置文件,

cd /usr/local/hadoop/etc/hadoop

① 修改slaves(將DataNode的主機名寫入該文件)

Slave

② 修改core-site.xml

<configuration>
      <property>
          <name>hadoop.tmp.dir</name>
          <value>file:/usr/local/hadoop/tmp</value>
          <description>Abase for other temporary directories.</description>
      </property>
      <property>
          <name>fs.defaultFS</name>
          <value>hdfs://master:9000</value>
      </property>
</configuration>

③ 修改hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
</configuration>

④ 修改mapred-site.xml(復制mapred-site.xml.template,再修改文件名)

sudo cp ./mapred-site.xml.template ./mapred-site.xm #修改文件名
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

⑤ 修改yarn-site.xml

 <configuration>
  <!-- Site specific YARN configuration properties -->
      <property>
          <name>yarn.nodemanager.aux-services</name>
          <value>mapreduce_shuffle</value>
      </property>
      <property>
          <name>yarn.resourcemanager.hostname</name>
          <value>master</value>
      </property>
</configuration>

配置好后,將 master 上的 /usr/local/Hadoop 文件夾復制到各個節點上

cd /usr/local/
rm -rf ./hadoop/tmp   # 刪除以前運行時產生的臨時文件
rm -rf ./hadoop/logs/*  # 刪除日志文件

tar -zcf ~/hadoop.master.tar.gz ./hadoop #壓縮文件
cd ~
scp ./hadoop.master.tar.gz Slave:/home/zj #發送到Slave

在Slave上解壓hadoop文件

sudo rm -rf /usr/local/hadoop/
sudo tar -zxf ~/hadoop.master.tar.gz -C /usr/local
sudo chown -R zj /usr/local/hadoop

hadoop集群環境配置完成。

Spark集群配置

在Master上修改spark的配置文件,

cd /usr/local/spark/

① 修改slaves文件(將 slaves.template 拷貝到 slaves,cp ./conf/slaves.template ./conf/slaves

slaves文件設置Worker節點:

Slave

②修改spark-env.sh文件(復制spark-env.sh.template ,再修改)

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SPARK_MASTER_IP=192.168.1.101 #集群中Master節點的IP地址

配置好后,將Master主機上的/usr/local/spark文件夾復制到Slave節點上:

cd /usr/local/
tar -zcf ~/spark.master.tar.gz ./spark
cd ~
scp ./spark.master.tar.gz Slave:/home/zj

在Slave上解壓spark文件:

sudo rm -rf /usr/local/spark/
sudo tar -zxf ~/spark.master.tar.gz -C /usr/local
sudo chown -R zj /usr/local/spark

spark集群配置完成。

啟動Spark集群

啟動Hadoop

cd /usr/local/hadoop
bin/hdfs namenode -format # 首次運行需格式化一下 sbin/start-all.sh

啟動spark(Master主機上)

cd /usr/local/spark/
sbin/start-master.sh

sbin/start-slaves.sh

分別在Master和Slave上輸入jps,檢查集群是否配置成功

#Master主機上
3170
SecondaryNameNode 3335 ResourceManager 3719 Jps 3657 Master 2926 NameNode
#Slave主機上
4933
Jps 4634 NodeManager 4876 Worker 4462 DataNode

能全部輸出以上的各進程,則代表配置成功。缺少任一進程,需重新檢查配置過程。

(注:來自廈門大學大數據學習總結)

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM