簡述
Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用並行框架,Spark,擁有Hadoop MapReduce所具有的優點;但不同於MapReduce的是Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的MapReduce的算法。由於spark帶有Python的API,而本人比較專於Python語言。因此在此分享一下我在配置spark的方法以及心得。
配置過程
步驟一:
下載scala壓縮包,進入鏈接http://www.scala-lang.org/,點擊download下載scala,並解壓到當前目錄下。
下載jdk壓縮包,進入鏈接http://www.oracle.com/technetwork/java/javase/downloads/index.html,下載最新版jdk,若為64位系統請下載jdk-8u91-linux-x64.tar.gz(本人下載版本為8u91,系統為64位),32位系統下載jdk-8u91-linux-i586.tar.gz,下載完成后解壓到當前目錄下。
下載spark壓縮包,進入鏈接https://spark.apache.org/downloads.html,選擇當前最新版本人為1.6.2,點擊下載。
步驟二:
1.打開命令行窗口。
2.執行命令 sudo -i
3.進入到解壓文件所在目錄
4.將j解壓文件轉移到opt目錄下
執行 mv jdk1.8.0_91 /opt/jdk1.8.0_91
執行 mv scala-2.11.8 /opt/scala-2.11.8
執行 mv spark-1.6.2-bin-hadoop2.6 /opt/spark-hadoop
步驟三:
配置環境變量,編輯/etc/profile,執行以下命令
sudo gedit /etc/profile
在文件最下方增加(注意版本):
#Seeting JDK JDK環境變量
export JAVA_HOME=/opt/jdk1.8.0_91
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:$PATH
#Seeting Scala Scala環境變量
export SCALA_HOME=/opt/scala-2.11.8
export PATH=${SCALA_HOME}/bin:$PATH
#setting Spark Spark環境變量
export SPARK_HOME=/opt/spark-hadoop/
#PythonPath 將Spark中的pySpark模塊增加的Python環境中
export PYTHONPATH=/opt/spark-hadoop/python
保存文件, 重啟電腦,使/etc/profile永久生效,臨時生效,打開命令窗口,執行 source /etc/profile 在當前窗口生效
步驟四:
測試安裝結果
打開命令窗口,切換到Spark根目錄

執行 ./bin/spark-shell,打開Scala到Spark的連接窗口


執行結果如上,則無誤
執行./bin/pyspark ,打開Python到Spark的連接窗口


則安裝無誤
-
Python安發Spark應用
-
前面已設置PYTHONPATH,將pyspark加入到Python的搜尋路徑中
-
打開Spark安裝目錄(/opt/spark-hadoop),在/opt/spark-hadoop/Python/lib文件夾下解壓py4j,並復至到/opt/spark-hadoop/Python目錄下。
在pycharm中測試,出現如下紅色字眼,則配置成功。

參考至:http://www.open-open.com/lib/view/open1432192407317.html
