spark默認讀取的是hdfs上的文件。
如果讀取本地文件,則需要加file:///usr/local/spark/README.md。 (測試時候發現,本地文件必須在spark的安裝路徑內部或者平行)
讀取hdfs文件, 可以這樣指定路徑 hdfs://ns1/tmp/test.txt。
如果不指定任何前綴,則使用hdfs的默認路徑/user/data/
啟動spark-shell:
由於已經在spark-defaults.conf中指定了spark.master,所以啟動時默認以standalone模式加載
1. 讀取本地文件:
spark安裝路徑下/usr/local/spark/README.md
然鵝使用其他路徑 /home/hadoop/king/spark/wordcount/data/test.txt
2. 讀取hdfs文件
hdfs://ns1/tmp/test.txt
3. 不加任何前綴
默認識別的hadoop用戶的目錄,將剛才的test.txt拷貝到目錄:hdfs://ns1/user/hadoop/
再次讀取:
在實際的使用中推薦使用第二種方式處理數據。