SQL JOIN --Merge Join

本文轉載自查看原文 2012-08-27 16:36 6631 [04]數據庫

1概述
Merge join 合並連接。兩個集合進行merge join，需要有一個等值的條件，然后需要兩個已排序好的集合。

2 one-to-many與many-to-many
2.1 One-to-many
當參與merge join的兩個集合中，其中一個集合在等值條件上是具有唯一性(如SELECT * FROM T1 INNER JOIN T2 ON T1.A=T2.B，如果T1在A列上具有唯一性)，那么即為one-to-many。主要步驟為：首先從兩個集合中各取出一條記錄進行比較，如果符合join條件，那么取出該行；否則將值小記錄從集合中移除，然后取值小集合的下一行，繼續比較。
2.2 many-to many
當參與merge join的兩個集合中，沒有一個集合在等值條件上具有唯一性時，則采用many-to-many(SELECT * FROM T1 INNER JOIN T2 ON T1.A=T2.B,當列A與列B都不具有唯一性)。主要步驟為：在A和B中都存在A1,A2..An,B1,B2..Bn，那么正常情況下需要為A的每一條記錄(A1,A2..An)都要將B中的B1,B2..Bn讀取出來，這樣浪費性能。所在數據庫在處理時，將B中的匹配行儲存在tempdb中，如果A中的下一行相等，則讀取tempdb中的內容，否則刪除tempdb中的數據。
2.3 one-to-many與many-to-many的比較
很顯然，one-to-many的效率更高，因為它不需要臨時表。那么如何讓查詢優化器知道我們其中某個集合具有唯一性呢。方法一是：建立聚集索引；二是如distinct、group by操作符。

3排序與索引
數據庫幾個大的操作之一就是大表的排序，所以使用merge join如果表數據量比較大，並且無索引，那么並不適合merge join。所以當數據量很大，就需要為其添加索引。

4示例
測試數據

View Code

IF  EXISTS (SELECT * FROM sys.objects WHERE object_id = OBJECT_ID(N'[dbo].[GoodsType]'))
DROP TABLE [dbo].[GoodsType]
GO
--商品類型表
CREATE TABLE dbo.[GoodsType]
(
    id int,
    good_type_name nvarchar(50)
);

INSERT INTO dbo.GoodsType
SELECT 1,'服裝'
UNION ALL
SELECT 2,'數碼'
UNION ALL
SELECT 3,'家電'

IF  EXISTS (SELECT * FROM sys.objects WHERE object_id = OBJECT_ID(N'[dbo].[Goods]'))
DROP TABLE [dbo].[Goods]
GO
--商品類型表
CREATE TABLE dbo.[Goods]
(
    id int,
    good_name nvarchar(50),
    good_type int
);

INSERT INTO dbo.Goods
SELECT 1,'ADT恤',1
UNION ALL
SELECT 2,'AD外套',1
UNION ALL
SELECT 3,'T002電視',2
UNION ALL
SELECT 4,'海爾洗衣機',2
UNION ALL
SELECT 5,'HP222',3

4.1
未建任何索引，執行SQL

View Code

SET STATISTICS PROFILE ON
SELECT * 
FROM Goods AS G
    INNER JOIN GoodsType AS GT ON G.good_type=GT.id
OPTION(MERGE JOIN)

結果：

說明
1>未建立索引時，需要為兩個集合進行排序；
2>雖然在連接條件上唯一，但是未建唯一聚集索引時，為多對多的連接；

4.2
建立非聚集索引，執行SQL

View Code

CREATE CLUSTERED INDEX GT ON GOODSTYPE(ID)
CREATE CLUSTERED INDEX G ON GOODS(good_type)

SET STATISTICS PROFILE ON
SELECT * 
FROM Goods AS G
    INNER JOIN GoodsType AS GT ON G.good_type=GT.id
OPTION(MERGE JOIN)

結果：

說明：
1>建立索引后，執行merge join無排序的開銷
2>雖然兩個集合都建立了索引，並且連接的關鍵字也無重復，但還是多對多的連接，因為優化器不知道它是唯一的。

4.3
為其中一個集合建立唯一聚集索引，執行SQL

View Code

DROP INDEX GT ON GOODSTYPE
CREATE UNIQUE CLUSTERED INDEX GUT ON GOODSTYPE(ID)

SET STATISTICS PROFILE ON
SELECT * 
FROM Goods AS G
    INNER JOIN GoodsType AS GT ON G.good_type=GT.id
OPTION(MERGE JOIN)

結果

說明：
1>為其中的一個集合建立唯一聚集索引時，此時的連接為一對一的連接（執行計划中無一對一連接的概念）

5總結
當不適合使用nested join時，可以考慮使用merge join。在使用merge join時，需要注意兩個概念：一是排序，最好是索引排序，否則大數據量的實時排序會增加太多的成本；二是連接方式，是一對多還是多對多，如果關鍵字不重復，可以建立唯一聚集索引，即盡量使用一對多的連接。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 sql 算法 : Nested Loop，Hash Join，Merge Join介紹對PostgreSQL Merge Join 的理解 SQL各種JOIN SQL JOIN 淺談SQL Server中的三種物理連接操作(HASH JOIN MERGE JOIN NESTED LOOP) sql 算法 : 多表連接的三種方式詳解 HASH JOIN MERGE JOIN NESTED LOOP Merge join、Hash join、Nested loop join對比分析 SQL ----------- join （inner join 內連接） DataFrame的merge、join和concat函數 Kettle 插件之 Merge Join 的使用