Hive格式各种格式下不同压缩算法的比较


原始Text格式的hive分区大小为119.2G。

压缩算法

Text格式

Parquet格式

ORC

RCFile

不压缩

119.2G

54.1G

20.0G

98G

Snappy压缩

30.2 G

23.6

13.6

27.0G

Gzip压缩

18.8 G

14.1 G

不支持

15.2G

ZLIB压缩

不支持

不支持

10.1G

不支持

 

注意:我们集群现在hive设置默认snappy压缩,而parquet的压缩格式设置为parquet.compression=snappy,以前setmapred.output.compression=org.apache.hadoop.io.compress.SnappyCodec不起作用。

Orc的压缩格式设置方法为:orc.compress=SNAPPY,默认为ZLIB.

转自:https://blog.csdn.net/houzhizhen/article/details/53101237


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM