b樹和hash樹的應用場景


關系型數據庫中,索引大多采用B/B+樹來作為存儲結構,而全文搜索引擎的索引則主要采用hash的存儲結構,這兩種數據結構有什么區別?
       如果是等值查詢,那么哈希索引明顯有絕對優勢,因為只需要經過一次算法即可找到相應的鍵值;當然了,這個前提是,鍵值都是唯一的。如果鍵值不是唯一的,就需要先找到該鍵所在位置,然后再根據鏈表往后掃描,直到找到相應的數據;

        從示意圖中也能看到,如果是范圍查詢檢索,這時候哈希索引就毫無用武之地了,因為原先是有序的鍵值,經過哈希算法后,有可能變成不連續的了,就沒辦法再利用索引完成范圍查詢檢索;

        同理,哈希索引也沒辦法利用索引完成排序,以及like ‘xxx%’ 這樣的部分模糊查詢(這種部分模糊查詢,其實本質上也是范圍查詢);

         哈希索引也不支持多列聯合索引的最左匹配規則;

         B+樹索引的關鍵字檢索效率比較平均,不像B樹那樣波動幅度大,在有大量重復鍵值情況下,哈希索引的效率也是極低的,因為存在所謂的哈希碰撞問題


hash結構的特點:檢索效率非常高,索引的檢索可以一次到位,O(1)。B樹需要從根節點到枝節點,最后才能到葉節點進行多次I/O操作,所以hash的效率遠遠高於B樹的效率。

 

那么為什么數據庫索引還是用B樹結構呢?

1、hash索引僅滿足“=”、“IN”和“<=>”查詢,不能使用范圍查詢

      因為hash索引比較的是經常hash運算之后的hash值,因此只能進行等值的過濾,不能基於范圍的查找,因為經過hash算法處理后的hash值的大小關系,並不能保證與處理前的hash大小關系對應。

2、hash索引無法被用來進行數據的排序操作

      由於hash索引中存放的都是經過hash計算之后的值,而hash值的大小關系不一定與hash計算之前的值一樣,所以數據庫無法利用hash索引中的值進行排序操作。

3、對於組合索引,Hash 索引在計算 Hash 值的時候是組合索引鍵合並后再一起計算 Hash 值,而不是單獨計算 Hash 值,所以通過組合索引的前面一個或幾個索引鍵進行查詢的時候,Hash 索引也無法被利用。

4、Hash 索引遇到大量Hash值相等的情況后性能並不一定就會比B-Tree索引高。

對於選擇性比較低的索引鍵,如果創建 Hash 索引,那么將會存在大量記錄指針信息存於同一個 Hash 值相關聯。這樣要定位某一條記錄時就會非常麻煩,會浪費多次表數據的訪問,而造成整體性能低下。

(因此:鍵值重復率低的適合用B樹索引)

 

b-tree完全基於key的比較,和二叉樹相同的道理,相當於建個排序后的數據集,使用二分法查找算法,實際上也非常快,而且受數據量增長影響非常小。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM