Hive中JOIN操作

本文轉載自查看原文 2013-04-03 16:20 9981 Hadoop-Hive

1. 只支持相等JOIN。

2. 多表連接當使用不同的列進行JOIN時，會產生多個MR作業。

3. 最后的表的數據是從流中讀取，而前面的會在內存中緩存，因此最好把最大的表放在最后。

SELECT /*+ STREAMTABLE(a) */ a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1)//暗示

4. JOIN在WHERE子句前進行處理。

SELECT a.val, b.val FROM a LEFT OUTER JOIN b ON (a.key=b.key)

　　WHERE a.ds='2009-07-07' AND b.ds='2009-07-07'

SELECT a.val, b.val FROM a LEFT OUTER JOIN b

ON (a.key=b.key AND b.ds='2009-07-07' AND a.ds='2009-07-07')//先過濾

5. JOIN是左結合的：

SELECT a.val1, a.val2, b.val, c.val

FROM a JOIN b ON (a.key = b.key) LEFT OUTER JOIN c ON (a.key = c.key)

---> FROM c LEFT OUTER JOIN a ON (c.key = a.key) LEFT OUTER JOIN b ON (c.key = b.key).

6. 只有一個大表時，可以使用map端連接：

SELECT /*+ MAPJOIN(b) */ a.key, a.value

　　FROM a join b on a.key = b.key

　　1.將小表的數據變成hashtable廣播到所有的map端，將大表的數據進行合理的切分

　　2. map階段用大表的數據一行一行的去探測小表的hashtable

　　hive.auto.convert.join=true：自動判斷大表和小表

　　hive.smalltable.filesize=25M：當超過時使用reduce端連接

　　hive.join.emit.interval=1000

　　// hive.mapjoin.size.key=10000

　　hive.mapjoin.cache.numrows=10000

7. BUCKET MAP JOIN：在JOIN列上分桶，桶的數目成倍數關系，設置hive.optimize.bucketmapjoin=true

SELECT /*+ MAPJOIN(b) */ a.key, a.value

　　FROM a join b on a.key = b.key

Bucket Map Join 執行計划分兩步，第一步先將小表做map 操作變成hashtable 然后廣播到所有大表的map端，大表的map端接受了number_buckets 個小表的hashtable並不需要合成一個大的hashtable,直接可以進行map 操作，map 操作會產生number_buckets 個split，每個split 的標記跟小表的hashtable 標記是一樣的, 在執行projection 操作的時候，只需要將小表的一個hashtable 放入內存即可，然后將大表的對應的split 拿出來進行判斷，所以其內存限制為小表中最大的那個hashtable 的大小.

8. SORT-MERGE JOIN：在JOIN列上排序並分桶，且有相同的桶數目

set hive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;

set hive.optimize.bucketmapjoin = true;

set hive.optimize.bucketmapjoin.sortedmerge = true;

9. SKEW JOIN：處理數據傾斜

hive.exec.reducers.bytes.per.reducer：默認處理1G數據

hive.optimize.skewjoin=false

hive.skewjoin.key=100000 ：(處理的總記錄數/reduce個數)的2-4倍

內連接：SELECT sales.*,things.* FROM sales JOIN things ON (sales.id=things.id)

SELECT sales.*,things.* FROM sales LEFT/RIGHT/FULL OUTER JOIN things ON (sales.id=things.id)

半連接：右手邊的表只能出現在JOIN條件里，不能出現在SELECT和WHERE里。

SELECT * FROM things LEFT SEMI JOIN sales ON (sales.id=things.id)

=SELECT * FROM things WHERE things.id in (SELECT id FROM sales)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 HIVE中join、semi join、outer join hive中的子查詢改join操作（轉） Hive 中的 LEFT SEMI JOIN 與 JOIN ON Hive中Join的類型和用法 HIVE中join、semi join、outer join舉例詳解 hive兩個大表join操作 Mapreduce中的join操作談談hive中join下on和where hive中 exists與left semi join HIVE中的order by操作