Hive 分區和分桶

本文轉載自查看原文 2020-09-02 17:35 665 Hive

分區

Hive分區是指按照數據表的某列或某些列分為多個區，區從形式上可以理解為文件夾，這樣可以實現取數據的時候，某個分區取出來的數據就是所需要的分區數據。
常用的分區字段有：按時間分區，按業務分區等。

#創建分區表
create table t1 (
id int,
name string,
age int
)
partitioned by (pdate string)
row format delimited fields terminated by '\001'
;

常用命令：
查看分區數據：
select * from t1 where pdate='2020-01-01';

查看有哪些分區：
show partitions t1;

向分區插入數據：
insert overwrite table t1 partition(pdate='2020-01-01')
select * from xxx
;

分桶

Hive 分桶是比分區更細粒度的數據划分，可以指定分桶表的某一列，讓該列數據按照哈希取模的方式隨機、均勻地分發到各個桶文件中。
因為分桶操作需要根據某一列具體數據來進行哈希取模操作，故指定的分桶列必須基於表中的某一列（字段）。分桶改變了數據的存儲方式，它會把哈希取模相同或者在某一區間的數據行放在同一個桶文件中。

如此一來便可提高查詢效率，比如我們要對兩張在同一列上進行了分桶操作的表進行JOIN操作的時候，只需要對保存相同列值的桶進行JOIN操作即可。同時分桶也可以提高采樣率。

分桶表的好處：
獲得更高的查詢處理效率：桶為表加上了額外的結構，Hive 在處理有些查詢時能利用這個結構。具體而言，連接兩個在（包含連接列的）相同列上划分了桶的表，可以使用 Map 端連接（Map-side join）高效的實現。比如JOIN操作。對於JOIN操作兩個表有一個相同的列，如果對這兩個表都進行了桶操作。那么將保存相同列值的桶進行JOIN操作就可以，可以大大較少JOIN的數據量。

使取樣（sampling）更高效：在處理大規模數據集時，在開發和修改查詢的階段，如果能在數據集的一小部分數據上試運行查詢，會帶來很多方便。

#常用指令：
#創建分桶表
create table t2(
id int,
name string
)
clustered by (id) sorted by(id) into 4 buckets 
;

查看分桶表：
dfs -ls /user/hive/warehouse/bucketed_users;
文件結構如下所示：
/user/hive/warehouse/b_table1/000000_0
/user/hive/warehouse/b_table1/000001_0
/user/hive/warehouse/b_table1/000002_0
/user/hive/warehouse/b_table1/000003_0

動態分區表

對動態分區表寫入數據時，要開啟允許動態分區寫入。
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nostrict;

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Hive動態分區和分桶（八）【Hive學習之五】Hive 參數&動態分區&分桶 Hive分區表分桶表的認識與區別 Hive的分桶表 Hive為什么要分桶 Hive 表操作（HIVE的數據存儲、數據庫、表、分區、分桶） Hive 的分桶 & Parquet 概念 Hive學習筆記——Hive中的分桶 Hive-查詢（四）分桶及抽樣查詢 HIVE-分桶表的詳解和創建實例