在pycharm上配置pyspark


1、下載完spark,解壓,我下載的是spark-2.4.1版本,在文件的 \spark-2.4.1-bin-hadoop2.7\python\lib 中有兩個文件

 

 

 這兩個文件之后會用到

2、由於使用了pyspark時from pyspark import SparkContext,需要下載py4j,直接pip即可

3、pycharm設置環境變量

點擊config

選擇environment

 

 

 

 

 

 

創建環境變量,一個是SPARK_HOME,另外一個是PYTHONPATH,設置它們的values,SPARK_HOME的value是安裝文件夾spark-2.1.1-bin-hadoop2.7的絕對路徑,PYTHONPATH的value是該絕對路徑/python,例如我的SPARK_HOME的value是G:\spark\spark-2.4.1-bin-hadoop2.7,那么我的PYTHONPATH的value是G:\spark\spark-2.4.1-bin-hadoop2.7\python 。設置好了保存。(注意不管是路徑的哪里,都不能有空格,尤其是結尾。)

4、關鍵的一步,在setting中的project structure中點擊右邊的“add content root”,添加py4j-some-version.zip和pyspark.zip的路徑(這兩個文件都在Spark中的python文件夾下,上面提到過路徑位置)

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM