idea配置pyspark

本文轉載自查看原文 2018-11-30 19:51 2359

默認python已經配好，並已經導入idea，只剩下pyspark的安裝

1、解壓spark-2.1.0-bin-hadoop2.7放入磁盤目錄

D:\spark-2.1.0-bin-hadoop2.7

2、將D:\spark-2.1.0-bin-hadoop2.7\python\pyspark拷貝到目錄Python的Lib\site-packages

3、在idea中配置spark環境變量

(1)

(2)

(3)

其中，需要配置的是SPARK_HOME。

如果系統中有多個版本的python，或者系統找不到python的位置，則需要配置PYSPARK_PYTHON ，我這里使用的是conda的python, E:\Program Files\Anaconda3\python.exe

(4) 安裝py4j

pip install py4j

4、創建session需要注意的地方

from pyspark.sql import SparkSession
# appName中的內容不能有空格，否則報錯
spark = SparkSession.builder.master("local[*]").appName("WordCount").getOrCreate()

#獲取上下文
sc = spark.sparkContext
帶有空格報錯情況如下：

5、創建上下文，兩種方式

#第一種
conf = SparkConf().setAppName('test').setMaster('local')
sc = SparkContext(conf=conf)
#第二種
sc=SparkContext('local','test')

6、實例(讀取文件並打印)

from pyspark import SparkContext, SparkConf

conf = SparkConf().setAppName('test').setMaster('local')
sc = SparkContext(conf=conf)

rdd = sc.textFile('d:/scala/log.txt')
print(rdd.collect())

結果：

注意：還有一種錯誤如下所示

Java.util.NoSuchElementException: key not found: _PYSPARK_DRIVER_CALLBACK_HOST

這是因為版本的問題，可能pyspark的版本與spark不匹配

例如：
spark是2.1.0
所以當使用pip安裝pyspark時需要帶上版本號：
pip install pyspark==2.1.2；
皆為2.1版本

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 idea_pyspark 環境配置 Spark和pyspark的配置安裝 pyspark的安裝配置 pyspark+anaconda配置在pycharm上配置pyspark pyspark配置config pyspark Sparkconf()參數配置 pyspark 參數配置 pyspark pyspark 安裝配置【linux && win】