spark2.2.1安裝、pycharm連接spark配置


一、單機版本Spark安裝

Win10下安裝Spark2.2.1

1. 工具准備

JDK 8u161 with NetBeans 8.2:

http://www.oracle.com/technetwork/java/javase/downloads/jdk-netbeans-jsp-142931.html

spark: spark-2.2.1-bin-hadoop2.7:

https://spark.apache.org/downloads.html

winutils.exe:下載的是針對hadoop-2.7的64位的winutils.exe 

https://github.com/rucyang/hadoop.dll-and-winutils.exe-for-hadoop2.7.3-on-windows_X64/tree/master/bin

hadoop-2.7.3:

https://archive.apache.org/dist/hadoop/common/  

scala-2.11.8可到官網自行下載

2. Java雙擊安裝

3. spark, hadoop解壓到你想保存的目錄,hadoop解壓過程發生提示需要以管理身份運行(載好安裝包之后解壓安裝包,把文件夾名改成hadoop,並和Spark一樣)。解決方案

https://jingyan.baidu.com/article/6079ad0e92cc8d28ff86dbc0.html?st=2&net_type=&bd_page_type=1&os=0&rst=&word=win7%E6%80%8E%E6%A0%B7%E8%A7%A3%E5%8E%8B%E6%96%87%E4%BB%B6

 4. 環境變量設置

編輯系統變量PATH的值,將java,spark,Hadoop,scala的相關bin路徑添加進去

 

5. winutils.exe拷貝到hadoop解壓后的bin目錄下,打開C:\Windows\System32目錄,找到cmd.exe,單擊選中后右鍵,菜單中選擇“以管理員身份運行”。以管理員模式進入cmd中輸入 D:\hadoop-2.7.5\hadoop-2.7.5\bin\winutils.exe chmod 777 /tmp/hive

 

二、pycharm連接Spark配置

pip install pyspark

http://blog.csdn.net/clhugh/article/details/74590929

pyspark配置

step1.在cmd命令行里面進入python

step2.輸入findspark模塊,import findspark

pip install findspark

findspark.init()

step3.初始化findspark模塊,輸入 findspark.init()

然后配置好SPARK_HOME環境變量

PYTHONPATH環境變量

 

 

 三、通過IDEA搭建scala開發環境開發

主要通過了兩個網站

https://www.cnblogs.com/wcwen1990/p/7860716.html

https://www.jianshu.com/p/a5258f2821fc

https://www.cnblogs.com/seaspring/p/5615976.html 

bug1:

找了好久才找到原因:http://blog.csdn.net/fransis/article/details/51810926

Bug2:

解決方法:http://blog.csdn.net/shenlanzifa/article/details/42679577

 

 四、通intellij idea打包可運行scala jar包

https://blog.csdn.net/freecrystal_alex/article/details/78296851

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM