Spark讀取文件


spark默認讀取的是hdfs上的文件。

如果讀取本地文件,則需要加file:///usr/local/spark/README.md。 (測試時候發現,本地文件必須在spark的安裝路徑內部或者平行)

讀取hdfs文件, 可以這樣指定路徑 hdfs://ns1/tmp/test.txt。

如果不指定任何前綴,則使用hdfs的默認路徑/user/data/

 

啟動spark-shell:

由於已經在spark-defaults.conf中指定了spark.master,所以啟動時默認以standalone模式加載

1. 讀取本地文件: 

spark安裝路徑下/usr/local/spark/README.md

然鵝使用其他路徑 /home/hadoop/king/spark/wordcount/data/test.txt

 

2. 讀取hdfs文件

hdfs://ns1/tmp/test.txt

 

3. 不加任何前綴

默認識別的hadoop用戶的目錄,將剛才的test.txt拷貝到目錄:hdfs://ns1/user/hadoop/ 

 

再次讀取:

 

在實際的使用中推薦使用第二種方式處理數據。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM