idea_pyspark 环境配置

本文转载自查看原文 2017-05-26 21:32 1639 机器学习（Python）

1、配置好Hadoop和spark

2、配置好Pytho3.5

3、安装py4j

　　pip3 install py4j

4、idea 中添加Python插件

file->setting->editor->plugins

右边搜索框中搜索Python，下载插件

5、下载完后，重启软件，建立Python项目，导入pyspark的包文件

导入步骤：file->project Structure->modules->右边栏中点dependencies->点添加->将"spark/python" 添加进去

6、test:

from pyspark.sql import SparkSession
if __name__ == "__main__":
    spark = SparkSession \
        .builder \
        .master("local") \
        .appName("PythonWordCount") \
        .getOrCreate()
    data = spark.read.csv("/lab/data/2/02singleentry.csv")
    data.show(10)

    spark.stop()

7、目前观察不能读取本地的数据，只能读取HDFS上的数据

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 idea配置pyspark Anaconda中配置Pyspark的Spark开发环境 Jupyter Notebook通过toree配置PySpark开发环境及其工作原理 PySpark环境搭建 idea配置python环境 IDEA环境配置 idea环境配置 IDEA安装及环境配置 IDEA配置Tomcat环境 IDEA配置tomcat环境