Btree和B+tree的區別


B樹

B樹是一種多路自平衡搜索樹,它類似普通的二叉樹,但是B書允許每個節點有更多的子節點。B樹示意圖如下:

B樹的特點:
(1)所有鍵值分布在整個樹中
(2)任何關鍵字出現且只出現在一個節點中
(3)搜索有可能在非葉子節點結束
(4)在關鍵字全集內做一次查找,性能逼近二分查找算法

 

 

 

3:所有葉子節點都出現在同一層,且葉子節點不包含任何關鍵字信息(可以看做是外部接點或查詢失敗的接點,實際上這些結點不存在,指向這些結點的指針都為null)
4:每個非葉子節點包含有n個關鍵字信息(n,P0,K1,P1,K2,P2,......,Kn,Pn),其中:
a) Ki (i=1...n)為關鍵字,且關鍵字按順序升序排序K(i-1)< Ki。
b) Pi為指向子樹根的接點,且指針P(i-1)指向子樹種所有結點的關鍵字均小於Ki,但都大於K(i-1)。
c) 關鍵字的個數n必須滿足: [ceil(m / 2)-1]<= n <= m-1。
這三天摘抄自文末參考,大致理解一下就行。

來模擬下查找文件29的過程:

   (1) 根據根結點指針找到文件目錄的根磁盤塊1,將其中的信息導入內存。【磁盤IO操作1次】

   (2) 此時內存中有兩個文件名17,35和三個存儲其他磁盤頁面地址的數據。根據算法我們發現17<29<35,因此我們找到指針p2。

   (3) 根據p2指針,我們定位到磁盤塊3,並將其中的信息導入內存。【磁盤IO操作2次】

   (4) 此時內存中有兩個文件名26,30和三個存儲其他磁盤頁面地址的數據。根據算法我們發現26<29<30,因此我們找到指針p2。

   (5) 根據p2指針,我們定位到磁盤塊8,並將其中的信息導入內存。【磁盤IO操作3次】

   (6) 此時內存中有兩個文件名28,29。根據算法我們查找到文件29,並定位了該文件內存的磁盤地址。

B+Tree


從圖中也可以看到,B+樹與B樹的不同在於:
(1)所有關鍵字存儲在葉子節點,非葉子節點不存儲真正的data
(2)為所有葉子節點增加了一個鏈指針

 

那么問題來了,為什么用B/B+樹這種結構來實現索引呢??
答:紅黑樹等結構也可以用來實現索引,但是文件系統及數據庫系統普遍使用B/B+樹結構來實現索引。mysql是基於磁盤的數據庫,索引是以索引文件的形式存在於磁盤中的,索引的查找過程就會涉及到磁盤IO(為什么涉及到磁盤IO請看文章后面的附加理解部分)消耗,磁盤IO的消耗相比較於內存IO的消耗要高好幾個數量級,所以索引的組織結構要設計得在查找關鍵字時要盡量減少磁盤IO的次數。為什么要使用B/B+樹,跟磁盤的存儲原理有關。

局部性原理與磁盤預讀
為了提升效率,要盡量減少磁盤IO的次數。實際過程中,磁盤並不是每次嚴格按需讀取,而是每次都會預讀。磁盤讀取完需要的數據后,會按順序再多讀一部分數據到內存中,這樣做的理論依據是計算機科學中注明的局部性原理:

  1. 當一個數據被用到時,其附近的數據也通常會馬上被使用
  2. 程序運行期間所需要的數據通常比較集中

(1)由於磁盤順序讀取的效率很高(不需要尋道時間,只需很少的旋轉時間),
因此對於具有局部性的程序來說,預讀可以提高I/O效率.預讀的長度一般為頁(page)的整倍數。
(2)MySQL(默認使用InnoDB引擎),將記錄按照頁的方式進行管理,每頁大小默認為16K(這個值可以修改)。linux 默認頁大小為4K。

B-Tree借助計算機磁盤預讀的機制,並使用如下技巧:
每次新建節點時,直接申請一個頁的空間,這樣就保證一個節點物理上也存儲在一個頁里,加之計算機存儲分配都是按頁對齊的,就實現了一個結點只需一次I/O。
假設 B-Tree 的高度為 h,B-Tree中一次檢索最多需要h-1次I/O(根節點常駐內存),漸進復雜度為O(h)=O(logdN)O(h)=O(logdN)。一般實際應用中,出度d是非常大的數字,通常超過100,因此h非常小(通常不超過3,也即索引的B+樹層次一般不超過三層,所以查找效率很高)。
而紅黑樹這種結構,h明顯要深的多。由於邏輯上很近的節點(父子)物理上可能很遠,無法利用局部性,所以紅黑樹的I/O漸進復雜度也為O(h),效率明顯比B-Tree差很多。

為什么mysql的索引使用B+樹而不是B樹呢??
(1)B+樹更適合外部存儲(一般指磁盤存儲),由於內節點(非葉子節點)不存儲data,所以一個節點可以存儲更多的內節點,每個節點能索引的范圍更大更精確。也就是說使用B+樹單次磁盤IO的信息量相比較B樹更大,IO效率更高。
(2)mysql是關系型數據庫,經常會按照區間來訪問某個索引列,B+樹的葉子節點間按順序建立了鏈指針,加強了區間訪問性,所以B+樹對索引列上的區間范圍查詢很友好。而B樹每個節點的key和data在一起,無法進行區間查找。

------------------

B-Tree    簡單理解: 二分查找;

B+    簡單理解:內節點不存儲數據了,改成存儲內節點,一次IO操作,可以查到更多的數據,最終IO次數比B-Tree少,效率更高了

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM