Python pycharm（windows版本）部署spark環境

本文轉載自查看原文 2017-04-27 19:41 7718 spark

　　一部署本地spark環境

1.1 安裝好JDK

下載並安裝好jdk1.7，配置完環境變量。

1.2 Spark環境變量配置

去http://spark.apache.org/downloads.html網站下載相應hadoop對應的版本，我下載的是 spark-1.6.0-bin-hadoop2.6.tgz，spark版本是1.6，對應的hadoop版本是2.6

解壓下載的文件，假設解壓目錄為：D:\Spark-1.6.0-bin-hadoop2.6。將D:\spark-1.6.0-bin-hadoop2.6\bin添加到系統Path變量，同時新建SPARK_HOME變量，變量值為：D:\spark-1.6.0-bin-hadoop2.6

1.3 Hadoop相關包的安裝

spark是基於hadoop之上的，運行過程中會調用相關hadoop庫，如果沒配置相關hadoop運行環境，會提示相關出錯信息，雖然也不影響運行。

去下載hadoop 2.6編譯好的包https://www.barik.net/archive/2015/01/19/172716/，我下載的是hadoop-2.6.0.tar.gz，解壓下載的文件夾，將相關庫添加到系統Path變量中：D:\hadoop-2.6.0\bin；同時新建HADOOP_HOME變量，變量值為：D:\hadoop-2.6.0。同時去github上下載一個叫做 winutils 的組件，地址是 https://github.com/srccodes/hadoop-common-2.2.0-bin 如果沒有hadoop對應的版本(此時版本是 2.6)，則去csdn上下載 http://download.csdn.net/detail/luoyepiaoxin/8860033，

我的做法是把CSDN這個壓縮包里的所有文件都復制到 hadoop_home的bin目錄下

二 Python環境

Spark提供了2個交互式shell, 一個是pyspark(基於python), 一個是spark_shell(基於Scala). 這兩個環境其實是並列的, 並沒有相互依賴關系, 所以如果僅僅是使用pyspark交互環境, 而不使用spark-shell的話, 甚至連scala都不需要安裝.

2.1 下載並安裝Anaconda

anaconda是一個集成了python解釋器和大多數python庫的系統，安裝anaconda 后可以不用再安裝python和pandas numpy等這些組件了。下載地址是 https://www.continuum.io/downloads。將python加到path環境變量中

三啟動pyspark驗證

在windows下命令行中啟動pyspark,如圖:

四在pycharm中配置開發環境

4.1 配置Pycharm

更詳細的材料參考 https://stackoverflow.com/questions/34685905/how-to-link-pycharm-with-pyspark

打開PyCharm，創建一個Project。然后選擇“Run” ->“Edit Configurations”

選擇 “Environment variables” 增加SPARK_HOME目錄與PYTHONPATH目錄。

SPARK_HOME:Spark安裝目錄
PYTHONPATH:Spark安裝目錄下的Python目錄

4.2 測試程序

先測試環境是否正確，代碼如下:

import os
import sys
 
# Path for spark source folder
os.environ['SPARK_HOME']="D:\javaPackages\spark-1.6.0-bin-hadoop2.6"
 
# Append pyspark to Python Path
sys.path.append("D:\javaPackages\spark-1.6.0-bin-hadoop2.6\python")
 
try:
from pyspark import SparkContext
from pyspark import SparkConf
 
print ("Successfully imported Spark Modules")
 
except ImportError as e:
print ("Can not import Spark Modules", e)
sys.exit(1)

如果程序可以正常輸出: "Successfully imported Spark Modules"就說明環境已經可以正常執行。

如下圖，黃色框內的是具體的spark環境和python環境:

測試程序代碼來源於 github :https://gist.github.com/bigaidream/40fe0f8267a80e7c9cf8

轉原博客地址：http://blog.csdn.net/huangxia73/article/details/51372557

注意：

可能會報沒有 py4j ( 它是python用來連接java的中間件)

可以用命令安裝：pip install py4j

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python pycharm（windows版本）部署spark環境 windows7 spark單機環境搭建及pycharm訪問spark Windows 下部署 hadoop spark環境 mac上多版本python環境+配置pycharm 【TensorFlow2】PyCharm部署GPU版本環境與遇到的問題及解決 python-pycharm中使用anaconda部署python環境 spark 部署環境搭建 pycharm下robot framework環境搭建，基於python版本3.6 python3+Robot Framework+PyCharm 環境部署在CentOS中部署Python和配置PyCharm開發環境