最近在學習spark相關知識。准備搭建eclipse開發環境。在安裝過程中遇到的問題記錄下來。
首先在scala網站上下載了scalaIDE:http://scala-ide.org/download/prev-stable.html
下載完成后,新建scala項目,在項目上右鍵, 選擇properties,
添加spark的jar包。
編寫wordcount 程序,
package example import org.apache.spark._ import SparkContext._ object WordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("worldCount") val sc = new SparkContext(conf) val textFile = sc.textFile(args(0)) val result = textFile.flatMap(line => line.split(" ")) .map(word => (word, 1)).reduceByKey(_+_) result.saveAsTextFile(args(1)) } }
將程序導出為jar包,拷貝至linux上,執行命令:
./spark-submit --class example.WordCount --master spark://192.168.1.241:7077 /opt/word-count.jar /opt/spark/README.md /opt/result
運行結果:
注意: 搭建spark集群時,最好選擇spark-with-hadoop,否則會出現缺少hadoop jar 包的問題