哈希算法
哈希算法時間復雜度為O(1),且不只存在於索引中,每個數據庫應用中都存在該數據結構。
哈希表
哈希表也為散列表,又直接尋址改進而來。在哈希的方式下,一個元素k處於h(k)中,即利用哈希函數h,根據關鍵字k計算出槽的位置。函數h將關鍵字域映射到哈希表T[0...m-1]的槽位上。

上圖中哈希函數h有可能將兩個不同的關鍵字映射到相同的位置,這叫做碰撞,在數據庫中一般采用鏈接法來解決。在鏈接法中,將散列到同一槽位的元素放在一個鏈表中,如下圖所示:

InnoDB存儲引擎中的哈希算法
InnoDB中采用除法散列函數,沖突機制采用鏈接法。
BTree索引和哈希索引的區別
Hash索引結構的特殊性,其檢索效率非常高,索引的檢索可以一次定位,不像B-Tree索引需要從根節點到枝節點,最后才能訪問到頁節點這樣多次的IO訪問,所以Hash索引的查詢效率要遠高於B-Tree索引。
可能很多人又有疑問了,既然Hash索引的效率要比B-Tree高很多,為什么大家不都用Hash索引而還要使用B-Tree索引呢?任何事物都是有兩面性的,Hash索引也一樣,雖然Hash索引效率高,但是Hash索引本身由於其特殊性也帶來了很多限制和弊端,主要有以下這些:
- Hash索引僅僅能滿足"=","IN"和"<=>"查詢,不能使用范圍查詢。哈希索引只支持等值比較查詢,包括=、 IN 、<=> (注意<>和<=>是不同的操作)。 也不支持任何范圍查詢,例如WHERE price > 100。
由於Hash索引比較的是進行Hash運算之后的Hash值,所以它只能用於等值的過濾,不能用於基於范圍的過濾,因為經過相應的Hash算法處理之后的Hash值的大小關系,並不能保證和Hash運算前完全一樣。 - Hash索引無法被用來避免數據的排序操作。
由於Hash索引中存放的是經過Hash計算之后的Hash值,而且Hash值的大小關系並不一定和Hash運算前的鍵值完全一樣,所以數據庫無法利用索引的數據來避免任何排序運算; - Hash索引不能利用部分索引鍵查詢。
對於組合索引,Hash索引在計算Hash值的時候是組合索引鍵合並后再一起計算Hash值,而不是單獨計算Hash值,所以通過組合索引的前面一個或幾個索引鍵進行查詢的時候,Hash索引也無法被利用。 - Hash索引在任何時候都不能避免表掃描。
前面已經知道,Hash索引是將索引鍵通過Hash運算之后,將 Hash運算結果的Hash值和所對應的行指針信息存放於一個Hash表中,由於不同索引鍵存在相同Hash值,所以即使取滿足某個Hash鍵值的數據的記錄條數,也無法從Hash索引中直接完成查詢,還是要通過訪問表中的實際數據進行相應的比較,並得到相應的結果。 - Hash索引遇到大量Hash值相等的情況后性能並不一定就會比BTree索引高。
對於選擇性比較低的索引鍵,如果創建Hash索引,那么將會存在大量記錄指針信息存於同一個Hash值相關聯。這樣要定位某一條記錄時就會非常麻煩,會浪費多次表數據的訪問,而造成整體性能低下。