spark讀取gz文件


spark 1.5.1是支持直接讀取gz格式的壓縮包的,和普通文件沒有什么區別:

使用spark-shell進入spark shell 交互界面:

輸入命令:

sc.textFile("\huawei\mr\20161120\880873\*.gz").foreach(println)

回車后是可以看到該目下很多個gz壓縮包文件都被打印出來了。

 單文件

 

 gzip zzz.dat # 壓縮 源文件被刪除 生成zzz.dat.gz

 gzip -d  zzz.dat.gz  解壓,源文件被珊瑚,生成zzz.dat文件

遞歸壓縮,好像 只支持單文件的壓縮

[hadoop@mini1 test]$ gzip -r t
[hadoop@mini1 test]$ ll
total 4
drwxr-xr-x. 2 hadoop root 4096 Aug 9 12:24 t
[hadoop@mini1 test]$ cd t/
[hadoop@mini1 t]$ ll
total 8
-rwxr--r--. 1 hadoop root 475 Aug 9 12:21 t1.dat.gz
-rwxr--r--. 1 hadoop root 475 Aug 9 12:21 t2.dat.gz

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM