Hive中Join的原理和機制

本文轉載自查看原文 2017-06-25 18:34 4902 hive/ join/ 原理

轉自:http://lxw1234.com/archives/2015/06/313.htm

籠統的說，Hive中的Join可分為Common Join（Reduce階段完成join）和Map Join（Map階段完成join）。本文簡單介紹一下兩種join的原理和機制。

Hive Common Join

如果不指定MapJoin或者不符合MapJoin的條件，那么Hive解析器會將Join操作轉換成Common Join,即：在Reduce階段完成join.
整個過程包含Map、Shuffle、Reduce階段。

Map階段

讀取源表的數據，Map輸出時候以Join on條件中的列為key，如果Join有多個關聯鍵，則以這些關聯鍵的組合作為key;
Map輸出的value為join之后所關心的(select或者where中需要用到的)列；同時在value中還會包含表的Tag信息，用於標明此value對應哪個表；
按照key進行排序

Shuffle階段

根據key的值進行hash,並將key/value按照hash值推送至不同的reduce中，這樣確保兩個表中相同的key位於同一個reduce中

Reduce階段
根據key的值完成join操作，期間通過Tag來識別不同表中的數據。

以下面的HQL為例，圖解其過程：

SELECT
a.id,a.dept,b.age
FROM a join b
ON (a.id = b.id);

Hive Common Join

看了這個圖，應該知道如何使用MapReduce進行join操作了吧。

Hive Map Join

MapJoin通常用於一個很小的表和一個大表進行join的場景，具體小表有多小，由參數hive.mapjoin.smalltable.filesize來決定，該參數表示小表的總大小，默認值為25000000字節，即25M。
Hive0.7之前，需要使用hint提示 /*+ mapjoin(table) */才會執行MapJoin,否則執行Common Join，但在0.7版本之后，默認自動會轉換Map Join，由參數hive.auto.convert.join來控制，默認為true.
仍然以9.1中的HQL來說吧，假設a表為一張大表，b為小表，並且hive.auto.convert.join=true,那么Hive在執行時候會自動轉化為MapJoin。

Hive MapJoin

如圖中的流程，首先是Task A，它是一個Local Task（在客戶端本地執行的Task），負責掃描小表b的數據，將其轉換成一個HashTable的數據結構，並寫入本地的文件中，之后將該文件加載到DistributeCache中，該HashTable的數據結構可以抽象為：

key	value
1	26
2	34

MapReduce Local Task

圖中紅框圈出了執行Local Task的信息。

接下來是Task B，該任務是一個沒有Reduce的MR，啟動MapTasks掃描大表a,在Map階段，根據a的每一條記錄去和DistributeCache中b表對應的HashTable關聯，並直接輸出結果。
由於MapJoin沒有Reduce，所以由Map直接輸出結果文件，有多少個Map Task，就有多少個結果文件。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 關於Hive中的join和left join的理解 HIVE中join、semi join、outer join舉例詳解 Hive中HSQL中left semi join和INNER JOIN、LEFT JOIN、RIGHT JOIN、FULL JOIN區別 Hive Left Join 中 On 與 Where 的區別 SQL中 left join 的底層原理 Hive Join(翻譯自Hive wiki) Hive的union和join操作 Hive--關聯表（join） hive 的多種join 方式淺析 Oracle中rownum機制原理&用法詳解