創建parquet table :
create table tabname(a int,b int) STORED AS PARQUET;
創建帶壓縮的parquet table:
create table tabname(a int,b int) STORED AS PARQUET TBLPROPERTIES('parquet.compression'='SNAPPY');
如果原來創建表的時候沒有指定壓縮,后續可以通過修改表屬性的方式添加壓縮:
ALTER TABLE tabname SET TBLPROPERTIES ('parquet.compression'='SNAPPY');
或者在寫入的時候
set parquet.compression=SNAPPY;
不過只會影響后續入庫的數據,原來的數據不會被壓縮,需要重跑原來的數據。
采用壓縮之后大概可以降低1/3的存儲大小。
