相關內容簡體繁體

Linux下Spark框架配置（Python）

本文轉載自查看原文 2016-07-08 20:13 11521 spark

簡述

　　 Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用並行框架，Spark，擁有Hadoop MapReduce所具有的優點；但不同於MapReduce的是Job中間輸出結果可以保存在內存中，從而不再需要讀寫HDFS，因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的MapReduce的算法。由於spark帶有Python的API，而本人比較專於Python語言。因此在此分享一下我在配置spark的方法以及心得。

配置過程

步驟一：

下載scala壓縮包，進入鏈接http://www.scala-lang.org/,點擊download下載scala，並解壓到當前目錄下。

下載jdk壓縮包，進入鏈接http://www.oracle.com/technetwork/java/javase/downloads/index.html，下載最新版jdk，若為64位系統請下載jdk-8u91-linux-x64.tar.gz（本人下載版本為8u91，系統為64位）,32位系統下載jdk-8u91-linux-i586.tar.gz，下載完成后解壓到當前目錄下。

下載spark壓縮包，進入鏈接https://spark.apache.org/downloads.html，選擇當前最新版本人為1.6.2，點擊下載。

步驟二：

　　1.打開命令行窗口。

　　2.執行命令 sudo -i

　　3.進入到解壓文件所在目錄

　　4.將j解壓文件轉移到opt目錄下

　　　　執行 mv jdk1.8.0_91 /opt/jdk1.8.0_91

　　　　執行 mv scala-2.11.8 /opt/scala-2.11.8

　　　　執行 mv spark-1.6.2-bin-hadoop2.6 /opt/spark-hadoop

步驟三：

配置環境變量,編輯/etc/profile,執行以下命令

　　　　sudo gedit /etc/profile

在文件最下方增加（注意版本）：

#Seeting JDK JDK環境變量

export JAVA_HOME=/opt/jdk1.8.0_91

export JRE_HOME=${JAVA_HOME}/jre

export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:$PATH

#Seeting Scala Scala環境變量

export SCALA_HOME=/opt/scala-2.11.8

export PATH=${SCALA_HOME}/bin:$PATH

#setting Spark Spark環境變量

export SPARK_HOME=/opt/spark-hadoop/

#PythonPath 將Spark中的pySpark模塊增加的Python環境中

export PYTHONPATH=/opt/spark-hadoop/python

保存文件，重啟電腦，使/etc/profile永久生效，臨時生效，打開命令窗口，執行 source /etc/profile 在當前窗口生效

步驟四：

測試安裝結果

打開命令窗口，切換到Spark根目錄

執行 ./bin/spark-shell,打開Scala到Spark的連接窗口

　　執行結果如上，則無誤

執行./bin/pyspark ,打開Python到Spark的連接窗口

則安裝無誤

Python安發Spark應用

前面已設置PYTHONPATH，將pyspark加入到Python的搜尋路徑中
打開Spark安裝目錄（/opt/spark-hadoop），在/opt/spark-hadoop/Python/lib文件夾下解壓py4j,並復至到/opt/spark-hadoop/Python目錄下。

在pycharm中測試，出現如下紅色字眼，則配置成功。

參考至：http://www.open-open.com/lib/view/open1432192407317.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Linux 下spark安裝 Linux 下 python如何配置virtualenv CentOS6下配置Spark、Python開發環境記錄 python spark環境配置【Spark】---- 在Linux集群上安裝和配置Spark win7下配置spark linux系統下安裝python3及其配置 Linux下python開發環境配置 linux下vim配置python ide Linux下python虛擬環境和配置

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM