SQL Server三種表連接原理

本文轉載自查看原文 2013-11-18 17:10 5956 SQL hash nest Merge Join/ 數據庫-SQL Server

　　在SQL Server數據庫中，查詢優化器在處理表連接時，通常會使用一下三種連接方式：

嵌套循環連接（Nested Loop Join）
合並連接（Merge Join）
Hash連接（Hash Join）

　　充分理解這三種表連接工作原理，可以使我們在優化SQL Server連接方面的代碼有據可依，為開展優化工作提供一定的思路。接下來我們來認識下這三種連接。

1. 嵌套循環連接（Nested Loop Join）

　　該連接方式通常在小數據量並且語句比較簡單的場景中使用，也是比較常見的連接方式，比如以下示例：

   1:  use AdventureWorks2008

   2:  go

   3:  SELECT H.*

   4:  FROM Sales.SalesOrderHeader H

   5:  JOIN Sales.Sale

 1: use AdventureWorks2008

sOrderDetail D

   6:  ON H.SalesOrderID=D.SalesOrderID

   7:  WHERE H.SalesOrderID = 43659

　　AdventureWorks2008數據庫是SQL Server的一個sample，你可以在微軟官方網站上自由下載。http://msftdbprodsamples.codeplex.com/releases/view/37109

　　我們在數據庫中運行這段代碼：

　　通過執行計划我們可以看到，數據庫的優化器使用了嵌套連接（Neasted Loops）,上面第一行中的Sales.SalesOrderHeader表因為只有一行數據所以做為外部表使用，SalesOrderDetail有12行數據做為內部表使用。

　　嵌套循環的工作原理如圖所示：

圖1 嵌套循環工作原理圖

　　其原理就是根據條件從表中過濾出一個外部鏈接表，循環的從外部表中讀取一行數據，去內部表中進行匹配，偽碼如下：

For (i=0;i< Number of outerTable Row;i++)

{

OuterTable[i] connect InnerTable[1,2.....N] To Create New Row

WHERE OuterTable[i].data.value = OuterTable[1,2.....N].data.Value

}

　　了解嵌套的工作原理后，我們不難發現，這種連接的方式具有一定的局限性的：

1. 因為算法是循環進行的，所以比較適合數據量較小的表進行連接，尤其是外部表的數據。

2. 兩張表最好是排序的。表中的條件列和連接列最好有索引，尤其是內部表必須有索引，這樣工作效率會成倍增加。

當外部表較小，而內部表較大並且連接字段上有索引的情況下，循環嵌套非常高效。並且嵌套循環是三種方式中唯一支持不等式連接的方式。

2. 合並連接（Merge Join）

　　在SQL Server數據庫中，如果查詢優化器，發現要連接的兩張對象表，在連接列上都已經排序並包含索引，那么優化器將會極大可能選擇“合並”連接策略。條件是：兩個表都是排序的，並且表連接條件中至少有一個等號連接，查詢分析器會去選擇合並連接。

　　代碼示例：

   1:  USE AdventureWorks2008

2:

   3:  GO

4:

   5:  SELECT P.*

6:

   7:  FROM Production.ProductModel P

8:

   9:  JOIN Production.ProductModelProductDescriptionCulture PPMD

10:

  11:  ON P.ProductModelID = PPMD.ProductModelID

　　根據執行計划我們可以看到，這次的連接操作使用的合並連接：

　　這兩張表中，數據量分別為128和762行數據，連接列是表中的主鍵並且數據是有序的，因此數據庫的查詢優化器自動選擇了合並連接。合並連接的工作原理如下圖所示：

圖2 合並連接的工作原理

　　數據庫優化器在決定使用合並連接后，並行的在兩個表（術語叫輸入集合）中各取第一行數據，進行匹配，匹配則返回匹配行並進行連接。如果不匹配，那么小的那一個表（輸入集合），則順序取下一行數據繼續嘗試匹配。

　　通過其工作原理我們可以發現，合並連接可以看成是一個類似於並發工作機制。操作分別在兩個表（輸入集合）依次獲取數據並進行比較，這就要求兩張表是有序的，有序的排列會極大的提高工作的效率。

　　有關表排序的問題，如果連接語句中使用Sort關鍵字來排序數據表，那么SQL Server的優化器會比較傾向於Hash Join。在合並連接中，並不排斥order by, group by, distinct等關鍵字，在使用這些語句時，查詢優化器也有極大的可能選擇合並連接。

　　當我們使用一些查詢限定條件，比如不等式（>,<,>=等）限定條件范圍，那么合並連接的效率會有更好。

　　合並連接的限定條件：

1. 兩張表的連接列需要排序

2. 連接列必須有索引

3. 哈希連接（Hash Join）

　　當我們嘗試將兩張數據量較大，沒有排序和索引的兩張表進行連接時，SQL Server的查詢優化器會嘗試使用Hash Join。

代碼示例：

   1:  SELECT *

2:

   3:  FROM Production.Product P

4:

   5:  Join Production.ProductSubcategory SPC

6:

   7:  on P.ProductSubcategoryID = SPC.ProductSubcategoryID

　　根據執行計划我們可以看到，這次的連接操作使用的哈希連接：

　　該連接在處理大量無序的數據時，效率較高，但是對處理器和內存資源的消耗較大。實現過程如下：

　　Hash Join連接的執行操作分為兩個階段，建立和探測。

　　建立是指對輸入表進行的一系列的操作。首先優化器會將輸入表中的每一行數據掃描到系統內存中，然后根據內置的散列算法計算出相應散列值，相同散列值的數據會被分到一個Hash池中。這些散列值和數據地址保存在一個Hash表中，提供給探測使用。通常優化器會選擇數據較少的表作為建立輸入表。

　　建立完成后，開始探查工作。另一個連接表（我們叫探查輸入）同樣會被逐行的掃描、計算，得出一個Hash值。連接操作會使用探查輸入的Hash值和建立輸入的Hash值列表進行掃描和匹配工作，最終建立連接。

　　上圖是Hash連接的工作流程，接下來我們可以來了解下哈希算法的實現的機制，以下的內容是個人對算法的理解，若有偏頗請指正。

　　Hash的實際含義是“散列”的意思，它主要的功能就是將一組數據，通過算法，變換成固定長度的輸出，這個輸出我們就稱之為散列值（Hash值），通常在安全領域，如密碼學中使用較多。

　　在SQL Server里面哈希散列函數是黑盒的，沒有具體的算法可以參考。實際上很多開發人員在解決海量數據查詢的時候，都會采用Hash方式，並且開發適合需求的散列算法。常用的一些算法包括一些取余、MD2、MD4、MD5 和 SHA-1等等。

　　因為算法，不同的數據可能會生成相同的散列值。它將大量的數據按照規則分散到不同數據堆或者鏈表中，建立內部的映射關系。我們可以認為他是將數組和鏈表結合在一起，想要達到一種尋址容易、插入刪除方便的數據結構，而Hash表就是一種數據內容和數據存放地址之間的映射關系。

　　散列函數的選擇會決定影響Hash表元數量大小和每個鍵值包含的數據多少，這個是數學上的問題這里不進行進一步討論。

　　說到這里，可能大家還是不太理解，我們這里舉例來說明：

　　比如說有兩張表：

表A{A,F,C,D,B,E……}

表B{F,B,E,D,A,F…….}

　　並且表A的數據量小於表B，這兩張表進行Hash連接的過程如下：

1. 首先數據庫會將表A中的所有數據，掃描存入內存中。

2. 內存中的表A的數據，經過散列函數依次得到對應的散列值（Hash值）。

3. 表A中相同散列值（鍵值）的數據，會統一的放入到一個Hash池中。個人認為Hash池中的數據，就是數組和鏈表的集合。Hash的鍵值可以看到是一個數組的下標，而池中的數據以鏈表的形式連接在數組中。

Hash【鍵值】-->數據1-->數據2..............

如圖中的一組數據，數據A和數據C具有相同的Hash值，值為001，那么他們都被分配到以001命名的Hash池中。

4. 將Hash值和對應的數據，依次存入到一個Hash表中，建立結束。

5. 探測階段，數據庫依次讀取掃描表B中的每一行數據，並通過散列函數計算出一個Hash值。

6. 根據Hash值，去Hash表中和表A的鍵值進行匹配，找到對應的Hash池。

7. 接下來將表B的數據去和對應的Hash池中的每條數據，去對比和匹配。如果匹配成功則進行數據連接。

　　通過對原理的了解，我們可以看到這種連接方式，需要大量的計算操作，對CPU帶來一定的壓力。通常Hash 連接操作在內存中進行，如果內存不足，數據庫會將數據寫入到硬盤中，影響性能。

4.小結

三種連接方式的特點：

類型	連接列上索引	表的大小	排序	連接子句
嵌套	內部表：必須外部表：有最好	小	可選	所有類型
合並	內部表：必須聚簇索引或者覆蓋索引外部表：必須聚簇索引或者覆蓋索引	大	需要	Equi-join
HASH	內部表：不需要外部表：可選，最好有小的外部表，大得內部表	任意	不需要	Equi-join

三種方式對資源的壓力：

	嵌套循環連接	合並連接	哈希連接
CPU	低	低（如果沒有顯式排序）	高
內存	低	低（如果沒有顯式排序）	高
IO	可能高可能低	低	可能高可能低

　　以上是個人對三種連接的個人理解，不當之處請指正。

題外話：

　　其實我們可以把這三種連接比喻成相親。

　　嵌套連接就是熟人介紹，親戚朋友根據你的條件，搜索下周圍的資源，然后安排你和幾個姑娘見面，看看能不能匹配上。如果你的條件很明確（外部表索引），並且朋友對姑娘比較熟悉，對方的要求也很明確（內部表索引），那么成功率就會比較高。

　　合並連接就是社區或者網站組織的小型相親聯誼會，比如電影《戀愛33天中》那種8分鍾面對面的形式。男女雙方面對面進行交談（匹配判斷），每幾分鍾就換一個人再次交談，由於大家條件和目的性明確（都有索引），所以整個流程效率會比較高。

Hash連接則就像是萬人相親大會，比如上海的中山公園（條件好的已婚人士慎入）。單身青年的父母，入園后由於各種原因隨機的分成各個小群組（經過散列函數分成Hash池）。然后參與者根據自己的判斷（確認Hash鍵值），找到合適小組后（Hash鍵值相等），依次交談交換條件和信息（嘗試匹配），看看里面有沒有合適人選，有就進一步了解（匹配成功，連接）。

2013年11月14日 Ralf Wang

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 SQL Server三種表連接原理淺談SQL Server中的三種物理連接操作 Oracle 表三種連接方式(sql優化） Sql Server刪除數據表中重復記錄三種方法 oracle三種表連接方式淺談SQL Server中的三種物理連接操作(HASH JOIN MERGE JOIN NESTED LOOP) Hibernate連接三種數據庫的配置（SQL Server、Oracle、MySQL） SQL Server中Upsert的三種方式 SQL Server三種常見備份 SQL Server中的三種Join方式