Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平台,而Spark 是一個新興的大數據處理通用引擎,提供了分布式的內存抽象。
下面使用在同一個局域網下的兩台電腦搭建分布式計算的環境:
其中JDK、Hadoop、Spark都已經在兩台電腦上安裝好。
一台Ubuntu主機系統Master,IP地址假設為:192.168.1.101(ifconfig查看IP地址)
一台Ubuntu主機系統Slave ,IP地址假設為:192.168.1.108
(互ping一下,測試能否ping通)
修改主機名(方便區分主機):
sudo vim /etc/hostname #分別修改為Master、Slave
修改完后分別重啟一下,在終端Shell中可看到機器名的變化。
修改兩台電腦的/etc/hosts文件,
sudo vim /etc/hosts
添加同樣的配置:
127.0.0.1 localhost 192.168.1.101 Master 192.168.1.108 Slave
配置完后在Master上檢測一下能否ping通:ping Slave
配置ssh無密碼登錄本機和訪問集群機器
sudo apt-get openssh-server #若未安裝ssh需先安裝 ssh-keygen -t rsa -P "" cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys #生成ssh公鑰
#將公鑰發送給Slave
scp ~/.ssh/id_rsa.pub Slave:/home/zj
在Slave電腦上將Master的公鑰加入到該節點:
cat ~/id_rsa.pub >> ~/.ssh/authorized_keys
在Master電腦上執行命令:ssh Slave,測試能否用ssh登錄Slave主機。
Hadoop集群配置
在Master上修改Hadoop的配置文件,
cd /usr/local/hadoop/etc/hadoop
① 修改slaves(將DataNode的主機名寫入該文件)
Slave
② 修改core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
③ 修改hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>
④ 修改mapred-site.xml(復制mapred-site.xml.template,再修改文件名)
sudo cp ./mapred-site.xml.template ./mapred-site.xm #修改文件名
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
⑤ 修改yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
</configuration>
配置好后,將 master 上的 /usr/local/Hadoop 文件夾復制到各個節點上
cd /usr/local/ rm -rf ./hadoop/tmp # 刪除以前運行時產生的臨時文件 rm -rf ./hadoop/logs/* # 刪除日志文件 tar -zcf ~/hadoop.master.tar.gz ./hadoop #壓縮文件 cd ~ scp ./hadoop.master.tar.gz Slave:/home/zj #發送到Slave
在Slave上解壓hadoop文件
sudo rm -rf /usr/local/hadoop/ sudo tar -zxf ~/hadoop.master.tar.gz -C /usr/local sudo chown -R zj /usr/local/hadoop
hadoop集群環境配置完成。
Spark集群配置
在Master上修改spark的配置文件,
cd /usr/local/spark/
① 修改slaves文件(將 slaves.template 拷貝到 slaves,cp ./conf/slaves.template ./conf/slaves)
slaves文件設置Worker節點:
Slave
②修改spark-env.sh文件(復制spark-env.sh.template ,再修改)
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath) export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop export SPARK_MASTER_IP=192.168.1.101 #集群中Master節點的IP地址
配置好后,將Master主機上的/usr/local/spark文件夾復制到Slave節點上:
cd /usr/local/ tar -zcf ~/spark.master.tar.gz ./spark cd ~ scp ./spark.master.tar.gz Slave:/home/zj
在Slave上解壓spark文件:
sudo rm -rf /usr/local/spark/ sudo tar -zxf ~/spark.master.tar.gz -C /usr/local sudo chown -R zj /usr/local/spark
spark集群配置完成。
啟動Spark集群
啟動Hadoop
cd /usr/local/hadoop
bin/hdfs namenode -format # 首次運行需格式化一下 sbin/start-all.sh
啟動spark(Master主機上)
cd /usr/local/spark/ sbin/start-master.sh
sbin/start-slaves.sh
分別在Master和Slave上輸入jps,檢查集群是否配置成功
#Master主機上
3170 SecondaryNameNode 3335 ResourceManager 3719 Jps 3657 Master 2926 NameNode
#Slave主機上
4933 Jps 4634 NodeManager 4876 Worker 4462 DataNode
能全部輸出以上的各進程,則代表配置成功。缺少任一進程,需重新檢查配置過程。
(注:來自廈門大學大數據學習總結)
