Spark读取HDFS某个路径下的子文件夹中的所有文件

本文转载自查看原文 2020-07-27 11:18 4561 Spark

解决办法：使用*

验证：

在hdfs某个路径下新建两个文件夹，然后分别上传一个文件到新建好的子文件夹中

[user1@hdp ~]$ hdfs dfs -mkdir /tmp/test
[user1@hdp ~]$ hdfs dfs -mkdir /tmp/test/data1
[user1@hdp ~]$ hdfs dfs -mkdir /tmp/test/data2
[user1@hdp ~]$ hdfs dfs -put test1.txt /tmp/test/data1/
[user1@hdp ~]$ hdfs dfs -put test2.txt /tmp/test/data2/

其中test1.txt的内容为

hello world
java scala
spark hadoop

test2.txt的内容为

shanghai nanjing
hangzhou wuhan

然后在spark-shell中读取

scala> spark.sparkContext.textFile("/tmp/test/*").collect()
res0: Array[String] = Array(hello world, java scala, spark hadoop, shanghai nanjing, hangzhou wuhan)

可以看到已经读取到了test两个子目录下的文件。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 读取文件夹下所有子文件夹中的excel文件，并根据分类合并 [R语言]读取文件夹下所有子文件夹中的excel文件，并根据分类合并。读取tomcat下的文件夹路径 Python 递归读取文件夹内所有文件名（包含子文件夹） Linux C 读取文件夹下所有文件（包括子文件夹）的文件名 java读取文件夹下所有文件（包括子文件夹）的文件名 Linux C 读取文件夹下所有文件（包括子文件夹）的文件名 Linux C 读取文件夹下所有文件（包括子文件夹）的文件名 C#获取某一路径下的所有文件名信息（包括子文件夹） C#遍历指定文件夹中的所有文件和子文件夹