一、單機版本Spark安裝
Win10下安裝Spark2.2.1
1. 工具准備
JDK 8u161 with NetBeans 8.2:
http://www.oracle.com/technetwork/java/javase/downloads/jdk-netbeans-jsp-142931.html
spark: spark-2.2.1-bin-hadoop2.7:
https://spark.apache.org/downloads.html
winutils.exe:下載的是針對hadoop-2.7的64位的winutils.exe
hadoop-2.7.3:
https://archive.apache.org/dist/hadoop/common/
scala-2.11.8可到官網自行下載
2. Java雙擊安裝
3. spark, hadoop解壓到你想保存的目錄,hadoop解壓過程發生提示需要以管理身份運行(載好安裝包之后解壓安裝包,把文件夾名改成hadoop,並和Spark一樣)。解決方案
4. 環境變量設置
編輯系統變量PATH的值,將java,spark,Hadoop,scala的相關bin路徑添加進去
5. winutils.exe拷貝到hadoop解壓后的bin目錄下,打開C:\Windows\System32目錄,找到cmd.exe,單擊選中后右鍵,菜單中選擇“以管理員身份運行”。以管理員模式進入cmd中輸入 D:\hadoop-2.7.5\hadoop-2.7.5\bin\winutils.exe chmod 777 /tmp/hive
二、pycharm連接Spark配置
pip install pyspark
http://blog.csdn.net/clhugh/article/details/74590929
pyspark配置
step1.在cmd命令行里面進入python
step2.輸入findspark模塊,import findspark
pip install findspark
findspark.init()
step3.初始化findspark模塊,輸入 findspark.init()
然后配置好SPARK_HOME環境變量
PYTHONPATH環境變量
三、通過IDEA搭建scala開發環境開發
主要通過了兩個網站
https://www.cnblogs.com/wcwen1990/p/7860716.html
https://www.jianshu.com/p/a5258f2821fc
https://www.cnblogs.com/seaspring/p/5615976.html
bug1:
找了好久才找到原因:http://blog.csdn.net/fransis/article/details/51810926
Bug2:
解決方法:http://blog.csdn.net/shenlanzifa/article/details/42679577
四、通intellij idea打包可運行scala jar包
https://blog.csdn.net/freecrystal_alex/article/details/78296851