1、下載完spark,解壓,我下載的是spark-2.4.1版本,在文件的 \spark-2.4.1-bin-hadoop2.7\python\lib 中有兩個文件
這兩個文件之后會用到
2、由於使用了pyspark時from pyspark import SparkContext,需要下載py4j,直接pip即可
3、pycharm設置環境變量
點擊config
選擇environment
創建環境變量,一個是SPARK_HOME,另外一個是PYTHONPATH,設置它們的values,SPARK_HOME的value是安裝文件夾spark-2.1.1-bin-hadoop2.7的絕對路徑,PYTHONPATH的value是該絕對路徑/python,例如我的SPARK_HOME的value是G:\spark\spark-2.4.1-bin-hadoop2.7,那么我的PYTHONPATH的value是G:\spark\spark-2.4.1-bin-hadoop2.7\python 。設置好了保存。(注意不管是路徑的哪里,都不能有空格,尤其是結尾。)
4、關鍵的一步,在setting中的project structure中點擊右邊的“add content root”,添加py4j-some-version.zip和pyspark.zip的路徑(這兩個文件都在Spark中的python文件夾下,上面提到過路徑位置)