Spark讀取HDFS某個路徑下的子文件夾中的所有文件

本文轉載自查看原文 2020-07-27 11:18 4561 Spark

解決辦法：使用*

驗證：

在hdfs某個路徑下新建兩個文件夾，然后分別上傳一個文件到新建好的子文件夾中

[user1@hdp ~]$ hdfs dfs -mkdir /tmp/test
[user1@hdp ~]$ hdfs dfs -mkdir /tmp/test/data1
[user1@hdp ~]$ hdfs dfs -mkdir /tmp/test/data2
[user1@hdp ~]$ hdfs dfs -put test1.txt /tmp/test/data1/
[user1@hdp ~]$ hdfs dfs -put test2.txt /tmp/test/data2/

其中test1.txt的內容為

hello world
java scala
spark hadoop

test2.txt的內容為

shanghai nanjing
hangzhou wuhan

然后在spark-shell中讀取

scala> spark.sparkContext.textFile("/tmp/test/*").collect()
res0: Array[String] = Array(hello world, java scala, spark hadoop, shanghai nanjing, hangzhou wuhan)

可以看到已經讀取到了test兩個子目錄下的文件。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 讀取文件夾下所有子文件夾中的excel文件，並根據分類合並 [R語言]讀取文件夾下所有子文件夾中的excel文件，並根據分類合並。讀取tomcat下的文件夾路徑 Python 遞歸讀取文件夾內所有文件名（包含子文件夾） Linux C 讀取文件夾下所有文件（包括子文件夾）的文件名 java讀取文件夾下所有文件（包括子文件夾）的文件名 Linux C 讀取文件夾下所有文件（包括子文件夾）的文件名 Linux C 讀取文件夾下所有文件（包括子文件夾）的文件名 C#獲取某一路徑下的所有文件名信息（包括子文件夾） C#遍歷指定文件夾中的所有文件和子文件夾