Spark讀取HDFS某個路徑下的子文件夾中的所有文件


解決辦法:使用*


 

驗證:

在hdfs某個路徑下新建兩個文件夾,然后分別上傳一個文件到新建好的子文件夾中

 

[user1@hdp ~]$ hdfs dfs -mkdir /tmp/test
[user1@hdp ~]$ hdfs dfs -mkdir /tmp/test/data1
[user1@hdp ~]$ hdfs dfs -mkdir /tmp/test/data2
[user1@hdp ~]$ hdfs dfs -put test1.txt /tmp/test/data1/
[user1@hdp ~]$ hdfs dfs -put test2.txt /tmp/test/data2/

 其中test1.txt的內容為

hello world
java scala
spark hadoop

 

test2.txt的內容為

shanghai nanjing
hangzhou wuhan

 

然后在spark-shell中讀取

scala> spark.sparkContext.textFile("/tmp/test/*").collect()
res0: Array[String] = Array(hello world, java scala, spark hadoop, shanghai nanjing, hangzhou wuhan)

可以看到已經讀取到了test兩個子目錄下的文件。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM