Hive格式各種格式下不同壓縮算法的比較


原始Text格式的hive分區大小為119.2G。

壓縮算法

Text格式

Parquet格式

ORC

RCFile

不壓縮

119.2G

54.1G

20.0G

98G

Snappy壓縮

30.2 G

23.6

13.6

27.0G

Gzip壓縮

18.8 G

14.1 G

不支持

15.2G

ZLIB壓縮

不支持

不支持

10.1G

不支持

 

注意:我們集群現在hive設置默認snappy壓縮,而parquet的壓縮格式設置為parquet.compression=snappy,以前setmapred.output.compression=org.apache.hadoop.io.compress.SnappyCodec不起作用。

Orc的壓縮格式設置方法為:orc.compress=SNAPPY,默認為ZLIB.

轉自:https://blog.csdn.net/houzhizhen/article/details/53101237


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM