Spark讀取文件

本文轉載自查看原文 2018-02-28 11:54 10429 spark

spark默認讀取的是hdfs上的文件。

如果讀取本地文件，則需要加file:///usr/local/spark/README.md。 (測試時候發現，本地文件必須在spark的安裝路徑內部或者平行)

讀取hdfs文件, 可以這樣指定路徑 hdfs://ns1/tmp/test.txt。

如果不指定任何前綴，則使用hdfs的默認路徑/user/data/

啟動spark-shell:

由於已經在spark-defaults.conf中指定了spark.master，所以啟動時默認以standalone模式加載

1. 讀取本地文件:

spark安裝路徑下/usr/local/spark/README.md

然鵝使用其他路徑 /home/hadoop/king/spark/wordcount/data/test.txt

2. 讀取hdfs文件

hdfs://ns1/tmp/test.txt

3. 不加任何前綴

默認識別的hadoop用戶的目錄，將剛才的test.txt拷貝到目錄：hdfs://ns1/user/hadoop/

再次讀取：

在實際的使用中推薦使用第二種方式處理數據。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark 讀取Hadoop集群文件 Spark讀取HDFS中的Zip文件 Spark RDD 操作實戰之文件讀取 spark-shell讀取parquet文件 spark文件讀取與保存（scala實現） Spark Scala 讀取GBK文件的方法 Spark：spark讀取hbase spark本地讀取寫入s3文件使用spark-shell從本地讀取文件不成功的的操作。 Spark 使用textFile讀取本地文件時出現file not found