

在配置Hadoop之前,應該先做以下配置
1.更改主機名
首先更改主機名,目的是為了方便管理。
輸入:hostname
查看本機的名稱
使用 hostname 修改當前主機名。
hostname test1
然后輸入:vim /etc/sysconfig/network
修改主機名稱
將HOSTNAME 的名稱更改為你想要設置的名稱

注:主機名稱更改之后,要重啟(reboot)才會生效。
輸入:vim /etc/hosts
添加 主機IP 和對應的主機名稱,做映射。

注:在配置文件中使用主機名的話,這個映射必須做!
2.關閉防火牆
查看狀態
firewall-cmd --state
關閉防火牆,方便外部訪問。
CentOS 7版本以下輸入:
#關閉防火牆
service iptables stop
CentOS 7 以上的版本輸入:
systemctl stop firewalld.service
3.時間設置
輸入:date
查看服務器時間是否一致,若不一致則更改
更改時間命令
date -s ‘MMDDhhmmYYYY.ss’
1.tar -zxvf jdk-8u91...... -C ~/app
vi ~/.bash_profile
加上

source ~/.bash_profile
echo $JAVA_HOME #檢查
2.tar -zxvf scala...... -C ~/app
vi ~/.bash_profile
加上

source ~/.bash_profile
echo $SCALA_HOME #檢查
3.tar -zxvf hadoop-2.6.0...... -C ~/app
vi ~/.bash_profile
加上

source ~/.bash_profile
echo $HADOOP_HOME #檢查
cd /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop
vim hadoop-env.sh
加上

vim core-site.xml
將<configurarion></configuration>補充

fs.default.name 這是配置HDFS中節點的URL,在文件系統中,每一個節點都有自己的URL,通過URL才能在整個分布式系統中管理和查詢到此節點。集群里面的每一台機器都需要知道NameNode的地址。DataNode結點會先在NameNode上注冊,這樣它們的數據才可以被使用。獨立的客戶端程序通過這個URI跟DataNode交互,以取得文件的塊列表。
hadoop.tmp.dir 是hadoop文件系統依賴的基礎配置,很多路徑都依賴它。如果hdfs-site.xml中不配置namenode和datanode的存放位置,默認就放在這個路徑中
kvm是主機名,9000是RPC通信端口
vim hdfs-site.xml

dfs.replication 它決定着系統里面的文件塊的數據備份個數,此數值一般不大於從機的個數。
dfs.name.dir 是設置NameNode的數據存放的本地路徑
dfs.data.dir 是設置DataNode的數據存放的本地路徑
dfs.http.address是設置NameNode的tracker頁面監聽地址和端口
cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml

vi yarn-site.xml

node1為主機名
cd /root/app/hadoop-2.6.0-cdh5.7.0/bin
./hadoop namenode -format

檢查下這里面里有沒有多了東西了

cd /root/app/hadoop-2.6.0-cdh5.7.0/sbin
./sbin/start-all.sh 或者./sbin/start-dfs.sh # ./sbin/stop-all.sh(關閉集群)
(如果在~/.bash_profile加上HADOOP_HOME/sbin,就可以去掉sbin/)
如下圖說明啟動成功

免密登錄
啟動和停止 Hadoop 都會讓你輸入四次當前服務器的密碼。因此我們需要配置免密碼登錄服務器。

1.ssh-keygen -t rsa
~/.ssh文件里會生成

2.cd ~/.ssh
cat id_rsa.pub>>authorized_keys
就可以了 ,可以用ssh localhost測試下
4.tar -zxvf apache-maven-3.3.9-bin.tar.gz -C ~/app
vim ~/.bash_profile

source ~./bash_profile
mkdir ~/app/maven_repository
cd /root/app/apache-maven-3.3.9/conf
vim settings.xml

這一步是修改 The path to the local repository maven will use to store artifacts
mvn

就成功了
5.安裝python3.6.5
下載pyton3.6.5 source release
配置python依賴環境
yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4_devel libpcap-devel xz-devel
tar -zxvf Python-3.6.5.tgz
cd Python-3.6.5
./configure --prefix=/root/app/python3
make && make install
配置路徑


6.安裝spark
#下載source code
#tar -zxvf spark-2.3.0.tgz
#cd /home/software/spark-2.3.0/dev
#./make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0
解壓:
tar -zxvf spark-2.3.0-bin-hadoop2.6.tgz -C app/
配置到環境變量: export SPARK_HOME=/root/app/spark-2.3.0-bin-hadoop2.6 export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
測試:
運行一個簡單的spark程序
spark-shell