mysql索引之哈希索引


哈希算法

哈希算法時間復雜度為O(1),且不只存在於索引中,每個數據庫應用中都存在該數據結構。

哈希表

哈希表也為散列表,又直接尋址改進而來。在哈希的方式下,一個元素k處於h(k)中,即利用哈希函數h,根據關鍵字k計算出槽的位置。函數h將關鍵字域映射到哈希表T[0...m-1]的槽位上。

 
 

上圖中哈希函數h有可能將兩個不同的關鍵字映射到相同的位置,這叫做碰撞,在數據庫中一般采用鏈接法來解決。在鏈接法中,將散列到同一槽位的元素放在一個鏈表中,如下圖所示:
 
 

 

InnoDB存儲引擎中的哈希算法

InnoDB中采用除法散列函數,沖突機制采用鏈接法。

BTree索引和哈希索引的區別

Hash索引結構的特殊性,其檢索效率非常高,索引的檢索可以一次定位,不像B-Tree索引需要從根節點到枝節點,最后才能訪問到頁節點這樣多次的IO訪問,所以Hash索引的查詢效率要遠高於B-Tree索引。

可能很多人又有疑問了,既然Hash索引的效率要比B-Tree高很多,為什么大家不都用Hash索引而還要使用B-Tree索引呢?任何事物都是有兩面性的,Hash索引也一樣,雖然Hash索引效率高,但是Hash索引本身由於其特殊性也帶來了很多限制和弊端,主要有以下這些:

  1. Hash索引僅僅能滿足"=","IN"和"<=>"查詢,不能使用范圍查詢。哈希索引只支持等值比較查詢,包括=、 IN 、<=>  (注意<>和<=>是不同的操作)。 也不支持任何范圍查詢,例如WHERE price > 100。  
    由於Hash索引比較的是進行Hash運算之后的Hash值,所以它只能用於等值的過濾,不能用於基於范圍的過濾,因為經過相應的Hash算法處理之后的Hash值的大小關系,並不能保證和Hash運算前完全一樣。
  2. Hash索引無法被用來避免數據的排序操作。  
    由於Hash索引中存放的是經過Hash計算之后的Hash值,而且Hash值的大小關系並不一定和Hash運算前的鍵值完全一樣,所以數據庫無法利用索引的數據來避免任何排序運算;
  3. Hash索引不能利用部分索引鍵查詢。  
    對於組合索引,Hash索引在計算Hash值的時候是組合索引鍵合並后再一起計算Hash值,而不是單獨計算Hash值,所以通過組合索引的前面一個或幾個索引鍵進行查詢的時候,Hash索引也無法被利用。
  4. Hash索引在任何時候都不能避免表掃描。  
    前面已經知道,Hash索引是將索引鍵通過Hash運算之后,將 Hash運算結果的Hash值和所對應的行指針信息存放於一個Hash表中,由於不同索引鍵存在相同Hash值,所以即使取滿足某個Hash鍵值的數據的記錄條數,也無法從Hash索引中直接完成查詢,還是要通過訪問表中的實際數據進行相應的比較,並得到相應的結果。
  5. Hash索引遇到大量Hash值相等的情況后性能並不一定就會比BTree索引高。 
    對於選擇性比較低的索引鍵,如果創建Hash索引,那么將會存在大量記錄指針信息存於同一個Hash值相關聯。這樣要定位某一條記錄時就會非常麻煩,會浪費多次表數據的訪問,而造成整體性能低下。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM