python spark環境配置


 

 
 
 
 
 
在配置Hadoop之前,應該先做以下配置
 
1.更改主機名
首先更改主機名,目的是為了方便管理。 
輸入:hostname 
  查看本機的名稱 

  使用 hostname 修改當前主機名。

   hostname test1

  然后輸入:vim /etc/sysconfig/network

  修改主機名稱 

  將HOSTNAME 的名稱更改為你想要設置的名稱 

 
注:主機名稱更改之后,要重啟(reboot)才會生效。
輸入:vim /etc/hosts
添加 主機IP 和對應的主機名稱,做映射。 
 
注:在配置文件中使用主機名的話,這個映射必須做!
 
2.關閉防火牆
    查看狀態
        firewall-cmd --state
  關閉防火牆,方便外部訪問。 
  CentOS 7版本以下輸入: 
  #關閉防火牆
  service   iptables stop
  CentOS 7 以上的版本輸入:
  systemctl   stop   firewalld.service
 
3.時間設置
  輸入:date
  查看服務器時間是否一致,若不一致則更改 
  更改時間命令
   date -s ‘MMDDhhmmYYYY.ss’
 
 
1.tar -zxvf jdk-8u91......     -C  ~/app
   vi ~/.bash_profile
   加上
   source ~/.bash_profile
   echo $JAVA_HOME  #檢查 
 
2.tar -zxvf scala......     -C  ~/app
   vi ~/.bash_profile
   加上
   source ~/.bash_profile
   echo $SCALA_HOME  #檢查 
3.tar -zxvf hadoop-2.6.0......     -C  ~/app
   vi ~/.bash_profile
   加上
   source ~/.bash_profile
   echo $HADOOP_HOME #檢查 
 
 
   cd /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop
   vim hadoop-env.sh
   加上
   
  vim core-site.xml
  將<configurarion></configuration>補充
fs.default.name  這是配置HDFS中節點的URL,在文件系統中,每一個節點都有自己的URL,通過URL才能在整個分布式系統中管理和查詢到此節點。集群里面的每一台機器都需要知道NameNode的地址。DataNode結點會先在NameNode上注冊,這樣它們的數據才可以被使用。獨立的客戶端程序通過這個URI跟DataNode交互,以取得文件的塊列表。
hadoop.tmp.dir 是hadoop文件系統依賴的基礎配置,很多路徑都依賴它。如果hdfs-site.xml中不配置namenode和datanode的存放位置,默認就放在這個路徑中
 
kvm是主機名,9000是RPC通信端口
 
 
 vim hdfs-site.xml
dfs.replication 它決定着系統里面的文件塊的數據備份個數,此數值一般不大於從機的個數。
dfs.name.dir 是設置NameNode的數據存放的本地路徑
dfs.data.dir 是設置DataNode的數據存放的本地路徑
dfs.http.address是設置NameNode的tracker頁面監聽地址和端口
 
 
cp mapred-site.xml.template  mapred-site.xml
vi mapred-site.xml
 
 
vi yarn-site.xml
node1為主機名
 
 
cd /root/app/hadoop-2.6.0-cdh5.7.0/bin
./hadoop namenode -format
檢查下這里面里有沒有多了東西了
 
 
cd /root/app/hadoop-2.6.0-cdh5.7.0/sbin
 ./sbin/start-all.sh       或者./sbin/start-dfs.sh           # ./sbin/stop-all.sh(關閉集群)
(如果在~/.bash_profile加上HADOOP_HOME/sbin,就可以去掉sbin/)
 
如下圖說明啟動成功
 
 
免密登錄
  啟動和停止 Hadoop 都會讓你輸入四次當前服務器的密碼。因此我們需要配置免密碼登錄服務器。
   1.ssh-keygen -t rsa  
     ~/.ssh文件里會生成

  2.cd ~/.ssh

      cat id_rsa.pub>>authorized_keys

        就可以了 ,可以用ssh localhost測試下 

 

4.tar -zxvf  apache-maven-3.3.9-bin.tar.gz   -C  ~/app
  
    vim ~/.bash_profile
    
    source ~./bash_profile
    
    mkdir ~/app/maven_repository
    
    cd /root/app/apache-maven-3.3.9/conf
    vim settings.xml
    這一步是修改 The path to the local repository maven will use to store artifacts
    
    mvn
    就成功了
    
5.安裝python3.6.5
    下載pyton3.6.5 source release
    配置python依賴環境
     yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4_devel libpcap-devel xz-devel
    
    tar -zxvf Python-3.6.5.tgz
    cd  Python-3.6.5
    ./configure --prefix=/root/app/python3
    make && make install
    
    配置路徑
 
 
6.安裝spark
  #下載source code

  #tar -zxvf spark-2.3.0.tgz 

  #cd /home/software/spark-2.3.0/dev

   #./make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0

   解壓:
  tar -zxvf spark-2.3.0-bin-hadoop2.6.tgz -C app/
  配置到環境變量: export SPARK_HOME=/root/app/spark-2.3.0-bin-hadoop2.6                                 export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
  測試:
  運行一個簡單的spark程序
   spark-shell

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM