python spark環境配置 - 碼上快樂

相關內容簡體繁體

python spark環境配置

本文轉載自查看原文 2019-05-13 10:10 941 python spark

在配置Hadoop之前，應該先做以下配置

1.更改主機名

首先更改主機名，目的是為了方便管理。

輸入:hostname

　　查看本機的名稱

　　使用 hostname 修改當前主機名。

　　 hostname test1

　　然后輸入:vim /etc/sysconfig/network

　　修改主機名稱

　　將HOSTNAME 的名稱更改為你想要設置的名稱

注:主機名稱更改之后，要重啟(reboot)才會生效。

輸入:vim /etc/hosts

添加主機IP 和對應的主機名稱，做映射。

注:在配置文件中使用主機名的話，這個映射必須做！

2.關閉防火牆

查看狀態

firewall-cmd --state

　　關閉防火牆，方便外部訪問。

　　CentOS 7版本以下輸入:

　　#關閉防火牆

　　service iptables stop

　　CentOS 7 以上的版本輸入：

　　systemctl stop firewalld.service

3.時間設置

　　輸入:date

　　查看服務器時間是否一致，若不一致則更改

　　更改時間命令

　　date -s ‘MMDDhhmmYYYY.ss’

參考： https://blog.csdn.net/muyi_amen/article/details/62423649

1.tar -zxvf jdk-8u91...... -C ~/app

vi ~/.bash_profile

加上

source ~/.bash_profile

echo $JAVA_HOME #檢查

2.tar -zxvf scala...... -C ~/app

vi ~/.bash_profile

加上

source ~/.bash_profile

echo $SCALA_HOME #檢查

3.tar -zxvf hadoop-2.6.0...... -C ~/app

vi ~/.bash_profile

加上

source ~/.bash_profile

echo $HADOOP_HOME #檢查

cd /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop

vim hadoop-env.sh

加上

vim core-site.xml

將<configurarion></configuration>補充

fs.default.name 這是配置HDFS中節點的URL，在文件系統中，每一個節點都有自己的URL，通過URL才能在整個分布式系統中管理和查詢到此節點。集群里面的每一台機器都需要知道NameNode的地址。DataNode結點會先在NameNode上注冊，這樣它們的數據才可以被使用。獨立的客戶端程序通過這個URI跟DataNode交互，以取得文件的塊列表。

hadoop.tmp.dir 是hadoop文件系統依賴的基礎配置，很多路徑都依賴它。如果hdfs-site.xml中不配置namenode和datanode的存放位置，默認就放在這個路徑中

kvm是主機名，9000是RPC通信端口

vim hdfs-site.xml

dfs.replication 它決定着系統里面的文件塊的數據備份個數，此數值一般不大於從機的個數。

dfs.name.dir 是設置NameNode的數據存放的本地路徑

dfs.data.dir 是設置DataNode的數據存放的本地路徑

dfs.http.address是設置NameNode的tracker頁面監聽地址和端口

cp mapred-site.xml.template mapred-site.xml

vi mapred-site.xml

vi yarn-site.xml

node1為主機名

cd /root/app/hadoop-2.6.0-cdh5.7.0/bin

./hadoop namenode -format

檢查下這里面里有沒有多了東西了

cd /root/app/hadoop-2.6.0-cdh5.7.0/sbin

./sbin/start-all.sh 或者./sbin/start-dfs.sh # ./sbin/stop-all.sh(關閉集群)

(如果在~/.bash_profile加上HADOOP_HOME/sbin，就可以去掉sbin/)

如下圖說明啟動成功

免密登錄

　　啟動和停止 Hadoop 都會讓你輸入四次當前服務器的密碼。因此我們需要配置免密碼登錄服務器。

　　1.ssh-keygen -t rsa　　

　　　　 ~/.ssh文件里會生成

　　2.cd ~/.ssh

　　　　 cat id_rsa.pub>>authorized_keys

　　　　就可以了，可以用ssh localhost測試下

4.tar -zxvf apache-maven-3.3.9-bin.tar.gz -C ~/app

vim ~/.bash_profile

source ~./bash_profile

mkdir ~/app/maven_repository

cd /root/app/apache-maven-3.3.9/conf

vim settings.xml

這一步是修改 The path to the local repository maven will use to store artifacts

mvn

就成功了

5.安裝python3.6.5

下載pyton3.6.5 source release

配置python依賴環境

yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4_devel libpcap-devel xz-devel

tar -zxvf Python-3.6.5.tgz

cd Python-3.6.5

./configure --prefix=/root/app/python3

make && make install

配置路徑

6.安裝spark

https://archive.apache.org/dist/spark/spark-2.3.0/

　　#下載source code

　　#tar -zxvf spark-2.3.0.tgz

　　#cd /home/software/spark-2.3.0/dev

　　#./make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0

　　解壓：

　　tar -zxvf spark-2.3.0-bin-hadoop2.6.tgz -C app/

　　配置到環境變量： export SPARK_HOME=/root/app/spark-2.3.0-bin-hadoop2.6 　　　　　　　　　　　　　　　　　export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

　　測試：

　　運行一個簡單的spark程序

　　 spark-shell

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark 單機環境配置 CentOS6下配置Spark、Python開發環境記錄 Spark 的 python 編程環境 Mac 配置Spark環境scala+python版本（Spark1.6.0） spark集群的構建,python環境 windows環境開發spark及flink環境配置 win10下spark+Python開發環境配置 Python執行spark程序配置 mac下spark單機環境配置筆記 Jupyter配置Spark開發環境

粵ICP備18138465號 © 2018-2025 CODEPRJ.COM