spark讀取gz文件

本文轉載自查看原文 2017-08-09 11:24 1131

spark 1.5.1是支持直接讀取gz格式的壓縮包的，和普通文件沒有什么區別：

使用spark-shell進入spark shell 交互界面：

輸入命令：

sc.textFile("\huawei\mr\20161120\880873\*.gz").foreach(println)

回車后是可以看到該目下很多個gz壓縮包文件都被打印出來了。

單文件

gzip zzz.dat # 壓縮源文件被刪除生成zzz.dat.gz

gzip -d zzz.dat.gz 解壓,源文件被珊瑚,生成zzz.dat文件

遞歸壓縮,好像只支持單文件的壓縮

[hadoop@mini1 test]$ gzip -r t
[hadoop@mini1 test]$ ll
total 4
drwxr-xr-x. 2 hadoop root 4096 Aug 9 12:24 t
[hadoop@mini1 test]$ cd t/
[hadoop@mini1 t]$ ll
total 8
-rwxr--r--. 1 hadoop root 475 Aug 9 12:21 t1.dat.gz
-rwxr--r--. 1 hadoop root 475 Aug 9 12:21 t2.dat.gz

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark:讀取hdfs gz壓縮包 Spark讀取parquet文件 spark讀取本地文件（Spark）Spark 讀取文件系統的數據 spark讀取壓縮文件 Spark讀取文件統計行數 spark讀取文件時對字符編碼的支持 spark讀取外部配置文件的方法 Spark讀取HDFS小文件優化 .gz文件解壓