Hadoop+Spark分布式集群環境搭建

本文轉載自查看原文 2019-10-13 01:50 453 數據入門學習

　　Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平台，而Spark 是一個新興的大數據處理通用引擎，提供了分布式的內存抽象。

下面使用在同一個局域網下的兩台電腦搭建分布式計算的環境：

　　其中JDK、Hadoop、Spark都已經在兩台電腦上安裝好。

　　一台Ubuntu主機系統Master，IP地址假設為：192.168.1.101（ifconfig查看IP地址）

　　一台Ubuntu主機系統Slave ，IP地址假設為：192.168.1.108

　　（互ping一下，測試能否ping通）

修改主機名（方便區分主機）：

sudo vim /etc/hostname #分別修改為Master、Slave

修改完后分別重啟一下，在終端Shell中可看到機器名的變化。

修改兩台電腦的/etc/hosts文件，

sudo vim /etc/hosts

添加同樣的配置：

127.0.0.1 localhost
192.168.1.101 Master
192.168.1.108 Slave

配置完后在Master上檢測一下能否ping通：ping Slave

配置ssh無密碼登錄本機和訪問集群機器

sudo apt-get openssh-server #若未安裝ssh需先安裝
ssh-keygen -t rsa -P ""
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys #生成ssh公鑰

#將公鑰發送給Slave
scp ~/.ssh/id_rsa.pub Slave:/home/zj

在Slave電腦上將Master的公鑰加入到該節點：

cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

在Master電腦上執行命令：ssh Slave，測試能否用ssh登錄Slave主機。

Hadoop集群配置

在Master上修改Hadoop的配置文件，

cd /usr/local/hadoop/etc/hadoop

① 修改slaves（將DataNode的主機名寫入該文件）

Slave

② 修改core-site.xml

<configuration>
      <property>
          <name>hadoop.tmp.dir</name>
          <value>file:/usr/local/hadoop/tmp</value>
          <description>Abase for other temporary directories.</description>
      </property>
      <property>
          <name>fs.defaultFS</name>
          <value>hdfs://master:9000</value>
      </property>
</configuration>

③ 修改hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
</configuration>

④ 修改mapred-site.xml(復制mapred-site.xml.template,再修改文件名)

sudo cp ./mapred-site.xml.template ./mapred-site.xm #修改文件名

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

⑤ 修改yarn-site.xml

 <configuration>
  <!-- Site specific YARN configuration properties -->
      <property>
          <name>yarn.nodemanager.aux-services</name>
          <value>mapreduce_shuffle</value>
      </property>
      <property>
          <name>yarn.resourcemanager.hostname</name>
          <value>master</value>
      </property>
</configuration>

配置好后，將 master 上的 /usr/local/Hadoop 文件夾復制到各個節點上

cd /usr/local/
rm -rf ./hadoop/tmp   # 刪除以前運行時產生的臨時文件
rm -rf ./hadoop/logs/*  # 刪除日志文件

tar -zcf ~/hadoop.master.tar.gz ./hadoop #壓縮文件
cd ~
scp ./hadoop.master.tar.gz Slave:/home/zj #發送到Slave

在Slave上解壓hadoop文件

sudo rm -rf /usr/local/hadoop/
sudo tar -zxf ~/hadoop.master.tar.gz -C /usr/local
sudo chown -R zj /usr/local/hadoop

hadoop集群環境配置完成。

Spark集群配置

在Master上修改spark的配置文件，

cd /usr/local/spark/

① 修改slaves文件（將 slaves.template 拷貝到 slaves，cp ./conf/slaves.template ./conf/slaves）

slaves文件設置Worker節點：

Slave

②修改spark-env.sh文件（復制spark-env.sh.template ，再修改）

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SPARK_MASTER_IP=192.168.1.101 #集群中Master節點的IP地址

配置好后，將Master主機上的/usr/local/spark文件夾復制到Slave節點上：

cd /usr/local/
tar -zcf ~/spark.master.tar.gz ./spark
cd ~
scp ./spark.master.tar.gz Slave:/home/zj

在Slave上解壓spark文件：

sudo rm -rf /usr/local/spark/
sudo tar -zxf ~/spark.master.tar.gz -C /usr/local
sudo chown -R zj /usr/local/spark

spark集群配置完成。

啟動Spark集群

啟動Hadoop

cd /usr/local/hadoop
bin/hdfs namenode -format # 首次運行需格式化一下 sbin/start-all.sh

啟動spark（Master主機上）

cd /usr/local/spark/
sbin/start-master.sh

sbin/start-slaves.sh

分別在Master和Slave上輸入jps，檢查集群是否配置成功

#Master主機上
3170 SecondaryNameNode
3335 ResourceManager
3719 Jps
3657 Master
2926 NameNode

#Slave主機上
4933 Jps
4634 NodeManager
4876 Worker
4462 DataNode

能全部輸出以上的各進程，則代表配置成功。缺少任一進程，需重新檢查配置過程。

（注：來自廈門大學大數據學習總結）

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 基於docker的spark-hadoop分布式集群之一：環境搭建 Hadoop+Spark:集群環境搭建 hadoop+spark集群搭建 Hadoop、Spark——完全分布式HA集群搭建 hadoop+spark集群搭建入門 Spark 1.6.1分布式集群環境搭建 Spark完全分布式集群搭建【Spark2.4.4+Hadoop3.2.1】 Hadoop分布式集群搭建 1、hadoop HA分布式集群搭建 Hadoop完全分布式集群搭建