原始Text格式的hive分區大小為119.2G。
壓縮算法 |
Text格式 |
Parquet格式 |
ORC |
RCFile |
不壓縮 |
119.2G |
54.1G |
20.0G |
98G |
Snappy壓縮 |
30.2 G |
23.6 |
13.6 |
27.0G |
Gzip壓縮 |
18.8 G |
14.1 G |
不支持 |
15.2G |
ZLIB壓縮 |
不支持 |
不支持 |
10.1G |
不支持 |
注意:我們集群現在hive設置默認snappy壓縮,而parquet的壓縮格式設置為parquet.compression=snappy,以前setmapred.output.compression=org.apache.hadoop.io.compress.SnappyCodec不起作用。
Orc的壓縮格式設置方法為:orc.compress=SNAPPY,默認為ZLIB.
轉自:https://blog.csdn.net/houzhizhen/article/details/53101237