Btree和B+tree的區別

本文轉載自查看原文 2021-01-06 11:17 388 數據庫_MySQL

B樹

B樹是一種多路自平衡搜索樹，它類似普通的二叉樹，但是B書允許每個節點有更多的子節點。B樹示意圖如下：

B樹的特點：
（1）所有鍵值分布在整個樹中
（2）任何關鍵字出現且只出現在一個節點中
（3）搜索有可能在非葉子節點結束
（4）在關鍵字全集內做一次查找，性能逼近二分查找算法

3：所有葉子節點都出現在同一層，且葉子節點不包含任何關鍵字信息(可以看做是外部接點或查詢失敗的接點，實際上這些結點不存在，指向這些結點的指針都為null)
4：每個非葉子節點包含有n個關鍵字信息(n，P0，K1，P1，K2，P2，......，Kn，Pn)，其中：
a) Ki (i=1...n)為關鍵字，且關鍵字按順序升序排序K(i-1)< Ki。
b) Pi為指向子樹根的接點，且指針P(i-1)指向子樹種所有結點的關鍵字均小於Ki，但都大於K(i-1)。
c) 關鍵字的個數n必須滿足： [ceil(m / 2)-1]<= n <= m-1。
這三天摘抄自文末參考，大致理解一下就行。

來模擬下查找文件29的過程：

(1) 根據根結點指針找到文件目錄的根磁盤塊1，將其中的信息導入內存。【磁盤IO操作1次】

(2) 此時內存中有兩個文件名17，35和三個存儲其他磁盤頁面地址的數據。根據算法我們發現17<29<35，因此我們找到指針p2。

(3) 根據p2指針，我們定位到磁盤塊3，並將其中的信息導入內存。【磁盤IO操作2次】

(4) 此時內存中有兩個文件名26，30和三個存儲其他磁盤頁面地址的數據。根據算法我們發現26<29<30，因此我們找到指針p2。

(5) 根據p2指針，我們定位到磁盤塊8，並將其中的信息導入內存。【磁盤IO操作3次】

(6) 此時內存中有兩個文件名28，29。根據算法我們查找到文件29，並定位了該文件內存的磁盤地址。

B+Tree

從圖中也可以看到，B+樹與B樹的不同在於：
（1）所有關鍵字存儲在葉子節點，非葉子節點不存儲真正的data
（2）為所有葉子節點增加了一個鏈指針

那么問題來了，為什么用B/B+樹這種結構來實現索引呢？？
答：紅黑樹等結構也可以用來實現索引，但是文件系統及數據庫系統普遍使用B/B+樹結構來實現索引。mysql是基於磁盤的數據庫，索引是以索引文件的形式存在於磁盤中的，索引的查找過程就會涉及到磁盤IO(為什么涉及到磁盤IO請看文章后面的附加理解部分)消耗，磁盤IO的消耗相比較於內存IO的消耗要高好幾個數量級，所以索引的組織結構要設計得在查找關鍵字時要盡量減少磁盤IO的次數。為什么要使用B/B+樹，跟磁盤的存儲原理有關。

局部性原理與磁盤預讀
為了提升效率，要盡量減少磁盤IO的次數。實際過程中，磁盤並不是每次嚴格按需讀取，而是每次都會預讀。磁盤讀取完需要的數據后，會按順序再多讀一部分數據到內存中，這樣做的理論依據是計算機科學中注明的局部性原理：

當一個數據被用到時，其附近的數據也通常會馬上被使用
程序運行期間所需要的數據通常比較集中

（1）由於磁盤順序讀取的效率很高(不需要尋道時間，只需很少的旋轉時間)，
因此對於具有局部性的程序來說，預讀可以提高I/O效率.預讀的長度一般為頁(page)的整倍數。
（2）MySQL(默認使用InnoDB引擎),將記錄按照頁的方式進行管理,每頁大小默認為16K(這個值可以修改)。linux 默認頁大小為4K。

B-Tree借助計算機磁盤預讀的機制，並使用如下技巧：
每次新建節點時，直接申請一個頁的空間，這樣就保證一個節點物理上也存儲在一個頁里，加之計算機存儲分配都是按頁對齊的，就實現了一個結點只需一次I/O。
假設 B-Tree 的高度為 h,B-Tree中一次檢索最多需要h-1次I/O（根節點常駐內存），漸進復雜度為O(h)=O(logdN)O(h)=O(logdN)。一般實際應用中，出度d是非常大的數字，通常超過100，因此h非常小（通常不超過3，也即索引的B+樹層次一般不超過三層，所以查找效率很高）。
而紅黑樹這種結構，h明顯要深的多。由於邏輯上很近的節點（父子）物理上可能很遠，無法利用局部性，所以紅黑樹的I/O漸進復雜度也為O(h)，效率明顯比B-Tree差很多。

為什么mysql的索引使用B+樹而不是B樹呢？？
（1）B+樹更適合外部存儲(一般指磁盤存儲),由於內節點(非葉子節點)不存儲data，所以一個節點可以存儲更多的內節點，每個節點能索引的范圍更大更精確。也就是說使用B+樹單次磁盤IO的信息量相比較B樹更大，IO效率更高。
（2）mysql是關系型數據庫，經常會按照區間來訪問某個索引列，B+樹的葉子節點間按順序建立了鏈指針，加強了區間訪問性，所以B+樹對索引列上的區間范圍查詢很友好。而B樹每個節點的key和data在一起，無法進行區間查找。

------------------

B-Tree 簡單理解：二分查找；

B+ 簡單理解：內節點不存儲數據了，改成存儲內節點，一次IO操作，可以查到更多的數據，最終IO次數比B-Tree少，效率更高了

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 BTree和B+Tree 簡單區別 BTree B+Tree BTree和B+Tree詳解 BTree和B+Tree詳解 mysql-BTree和B+Tree詳解 Mysql BTree和B+Tree詳解 hash 跟B+tree的區別 B-Tree和B+Tree的區別 BTree,B-Tree,B+Tree,B*Tree的數據結構 hash索引和B+tree索引區別