常用:ORC & Parquet
性能對比:
hbase底層用sequenceFile
一、從text格式 到 orc =>
- 利用中間表方法(從textfile到orc):https://blog.csdn.net/happyrocking/article/details/90178439
-
CREATE TABLE A_ORC ( customerID int, name string, age int, address string ) STORED AS ORC tblproperties (“orc.compress" = “SNAPPY”); INSERT INTO TABLE A_ORC SELECT * FROM A;
-
- 先導入,后轉表存儲類型:http://www.sundeqiang.cn/archives/1092.html
二、從其他格式 =>
- LOAD DATA可用於導入CSV、Parquet、ORC、JSON、Avro格式的數據
- 導入PARQUET、ORC及JSON類型數據時,必須指定DATA_TYPE這一OPTIONS,否則會以默認的“CSV”格式進行解析,從而導致導入的數據格式不正確。
- 例子詳見:https://support.huaweicloud.com/sqlreference-dli/dli_08_0100.html