idea_pyspark 環境配置

本文轉載自查看原文 2017-05-26 21:32 1639 機器學習（Python）

1、配置好Hadoop和spark

2、配置好Pytho3.5

3、安裝py4j

　　pip3 install py4j

4、idea 中添加Python插件

file->setting->editor->plugins

右邊搜索框中搜索Python，下載插件

5、下載完后，重啟軟件，建立Python項目，導入pyspark的包文件

導入步驟：file->project Structure->modules->右邊欄中點dependencies->點添加->將"spark/python" 添加進去

6、test:

from pyspark.sql import SparkSession
if __name__ == "__main__":
    spark = SparkSession \
        .builder \
        .master("local") \
        .appName("PythonWordCount") \
        .getOrCreate()
    data = spark.read.csv("/lab/data/2/02singleentry.csv")
    data.show(10)

    spark.stop()

7、目前觀察不能讀取本地的數據，只能讀取HDFS上的數據

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 idea配置pyspark Anaconda中配置Pyspark的Spark開發環境 Jupyter Notebook通過toree配置PySpark開發環境及其工作原理 PySpark環境搭建 idea配置python環境 IDEA環境配置 idea環境配置 IDEA安裝及環境配置 IDEA配置Tomcat環境 IDEA配置tomcat環境