spark 1.5.1是支持直接讀取gz格式的壓縮包的,和普通文件沒有什么區別:
使用spark-shell進入spark shell 交互界面:
輸入命令:
sc.textFile("\huawei\mr\20161120\880873\*.gz").foreach(println)
回車后是可以看到該目下很多個gz壓縮包文件都被打印出來了。
單文件
gzip zzz.dat # 壓縮 源文件被刪除 生成zzz.dat.gz
gzip -d zzz.dat.gz 解壓,源文件被珊瑚,生成zzz.dat文件
遞歸壓縮,好像 只支持單文件的壓縮
[hadoop@mini1 test]$ gzip -r t
[hadoop@mini1 test]$ ll
total 4
drwxr-xr-x. 2 hadoop root 4096 Aug 9 12:24 t
[hadoop@mini1 test]$ cd t/
[hadoop@mini1 t]$ ll
total 8
-rwxr--r--. 1 hadoop root 475 Aug 9 12:21 t1.dat.gz
-rwxr--r--. 1 hadoop root 475 Aug 9 12:21 t2.dat.gz