idea配置pyspark


默認python已經配好,並已經導入idea,只剩下pyspark的安裝

1、解壓spark-2.1.0-bin-hadoop2.7放入磁盤目錄

   D:\spark-2.1.0-bin-hadoop2.7

2、將D:\spark-2.1.0-bin-hadoop2.7\python\pyspark拷貝到目錄Python的Lib\site-packages

3、在idea中配置spark環境變量

(1)

(2)

(3)

其中,需要配置的是SPARK_HOME。

如果系統中有多個版本的python,或者系統找不到python的位置,則需要配置PYSPARK_PYTHON ,我這里使用的是conda的python, E:\Program Files\Anaconda3\python.exe

(4) 安裝py4j

pip install py4j 

4、創建session需要注意的地方

from pyspark.sql import SparkSession
# appName中的內容不能有空格,否則報錯
spark = SparkSession.builder.master("local[*]").appName("WordCount").getOrCreate()

#獲取上下文
sc = spark.sparkContext
帶有空格報錯情況如下:

5、創建上下文,兩種方式

#第一種
conf = SparkConf().setAppName('test').setMaster('local')
sc = SparkContext(conf=conf)
#第二種
sc=SparkContext('local','test')

6、實例(讀取文件並打印)

from pyspark import SparkContext, SparkConf

conf = SparkConf().setAppName('test').setMaster('local')
sc = SparkContext(conf=conf)

rdd = sc.textFile('d:/scala/log.txt')
print(rdd.collect())

結果:

 

注意:還有一種錯誤如下所示

Java.util.NoSuchElementException: key not found: _PYSPARK_DRIVER_CALLBACK_HOST
這是因為版本的問題,可能pyspark的版本與spark不匹配
例如:
spark是2.1.0
所以當使用pip安裝pyspark時需要帶上版本號:
pip install pyspark==2.1.2;
皆為2.1版本

 

 

 

 

 

 
        

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM