Hive表壓縮功能
除了直接配置MapReduce壓縮功能外,Hive的ORC表和Parquet表直接支持表的壓縮屬性。
但支持的壓縮格式有限,ORC表支持None、Zlib、Snappy壓縮,默認為ZLIB壓縮。但這3種壓縮格式不支持切分,所以適合單個文件不是特別大的場景。使用Zlib壓縮率高,但效率差一些;使用Snappy效率高,但壓縮率低。
Parquet表支持Uncompress、Snappy、Gzip、Lzo壓縮,默認不壓縮Uncompressed。其中Lzo壓縮是支持切分的,所以在表的單個文件較大的場景會選擇Lzo格式。Gzip方式壓縮率高,效率低;而Snappy、Lzo效率高,壓縮率低。