parquet和orc選型以及壓縮格式


Hive表壓縮功能

除了直接配置MapReduce壓縮功能外,Hive的ORC表和Parquet表直接支持表的壓縮屬性。

 

 

 

但支持的壓縮格式有限,ORC表支持None、Zlib、Snappy壓縮,默認為ZLIB壓縮。但這3種壓縮格式不支持切分,所以適合單個文件不是特別大的場景。使用Zlib壓縮率高,但效率差一些;使用Snappy效率高,但壓縮率低。

Parquet表支持Uncompress、Snappy、Gzip、Lzo壓縮,默認不壓縮Uncompressed。其中Lzo壓縮是支持切分的,所以在表的單個文件較大的場景會選擇Lzo格式。Gzip方式壓縮率高,效率低;而Snappy、Lzo效率高,壓縮率低。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM