默認python已經配好,並已經導入idea,只剩下pyspark的安裝
1、解壓spark-2.1.0-bin-hadoop2.7放入磁盤目錄
D:\spark-2.1.0-bin-hadoop2.7
2、將D:\spark-2.1.0-bin-hadoop2.7\python\pyspark拷貝到目錄Python的Lib\site-packages
3、在idea中配置spark環境變量
(1)
(2)
(3)
其中,需要配置的是SPARK_HOME。
如果系統中有多個版本的python,或者系統找不到python的位置,則需要配置PYSPARK_PYTHON ,我這里使用的是conda的python, E:\Program Files\Anaconda3\python.exe
(4) 安裝py4j
pip install py4j
4、創建session需要注意的地方
from pyspark.sql import SparkSession # appName中的內容不能有空格,否則報錯 spark = SparkSession.builder.master("local[*]").appName("WordCount").getOrCreate() #獲取上下文 sc = spark.sparkContext 帶有空格報錯情況如下:
5、創建上下文,兩種方式
#第一種 conf = SparkConf().setAppName('test').setMaster('local') sc = SparkContext(conf=conf) #第二種 sc=SparkContext('local','test')
6、實例(讀取文件並打印)
from pyspark import SparkContext, SparkConf conf = SparkConf().setAppName('test').setMaster('local') sc = SparkContext(conf=conf) rdd = sc.textFile('d:/scala/log.txt') print(rdd.collect())
結果:
注意:還有一種錯誤如下所示
Java.util.NoSuchElementException: key not found: _PYSPARK_DRIVER_CALLBACK_HOST
這是因為版本的問題,可能pyspark的版本與spark不匹配
例如: spark是2.1.0 所以當使用pip安裝pyspark時需要帶上版本號: pip install pyspark==2.1.2; 皆為2.1版本