spark读取gz文件

本文转载自查看原文 2017-08-09 11:24 1131

spark 1.5.1是支持直接读取gz格式的压缩包的，和普通文件没有什么区别：

使用spark-shell进入spark shell 交互界面：

输入命令：

sc.textFile("\huawei\mr\20161120\880873\*.gz").foreach(println)

回车后是可以看到该目下很多个gz压缩包文件都被打印出来了。

单文件

gzip zzz.dat # 压缩源文件被删除生成zzz.dat.gz

gzip -d zzz.dat.gz 解压,源文件被珊瑚,生成zzz.dat文件

递归压缩,好像只支持单文件的压缩

[hadoop@mini1 test]$ gzip -r t
[hadoop@mini1 test]$ ll
total 4
drwxr-xr-x. 2 hadoop root 4096 Aug 9 12:24 t
[hadoop@mini1 test]$ cd t/
[hadoop@mini1 t]$ ll
total 8
-rwxr--r--. 1 hadoop root 475 Aug 9 12:21 t1.dat.gz
-rwxr--r--. 1 hadoop root 475 Aug 9 12:21 t2.dat.gz

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Spark:读取hdfs gz压缩包读取hdfs目录下的gz文件内容 Spark读取文件 Spark读取parquet文件 spark读取本地文件 Spark 扫描 HDFS lzo/gz/orc异常压缩文件（Spark）Spark 读取文件系统的数据 spark scala读取csv文件 spark textFile读取多个文件 spark教程(七)-文件读取案例