Java數據結構和算法（七）B+ 樹

數據結構與算法目錄(https://www.cnblogs.com/binarylei/p/10115867.html)

我們都知道二叉查找樹的查找的時間復雜度是 O(logN)，其查找效率已經足夠高了，那為什么還有 B 樹和 B+ 樹的出現呢？難道它兩的時間復雜度比二叉查找樹還小嗎？答案當然不是， B 樹和 B+ 樹的出現是因為另外一個問題，那就是磁盤 IO。

一、計算機中數據的存儲原理

頁是計算機管理存儲的邏輯塊，硬件及操作系統往往將主存和磁盤存儲區分割為連續的大小相等的塊。每個塊都稱為一頁(在許多操作系統中，頁大小通常為 4K)，主存和磁盤以頁為單位交換數據。

文件系統及數據庫系統的設計利用了磁盤預讀原理，將一個節點的大小設計為一個頁，這樣每個節點只需要一次 IO 就可以完全載入。

眾所周知，IO 操作的效率很低，那么，當在大量數據存儲中，查詢時我們不能一下子將所有數據加載到內存中，只能逐一加載磁盤頁，每個磁盤頁對應樹的節點。造成大量磁盤 IO 操作（最壞情況下為樹的高度）。平衡二叉樹由於樹深度過大而造成磁盤 IO 讀寫過於頻繁，進而導致效率低下。

所以，我們為了減少磁盤 IO 的次數，就你必須降低樹的深度，將“瘦高”的樹變得“矮胖”。一個基本的想法就是：

每個節點存儲多個元素
摒棄二叉樹結構，采用多叉樹

這樣就引出來了一個新的查找樹結構 - 多路查找樹。根據 AVL 給我們的啟發，一顆平衡多路查找樹(B~樹)自然可以使得數據的查找效率保證在 O(logN) 這樣的對數級別上。

二叉樹與 B 樹

下面來具體介紹一下 B 樹（Balance Tree），

二、B 樹

一個 m 階的 B 樹具有如下幾個特征：B 樹中所有結點的孩子結點最大值稱為 B 樹的階，通常用 m 表示。一個結點有 k 個孩子時，必有 k-1 個關鍵字才能將子樹中所有關鍵字划分為 k 個子集。

2.1 特點

根結點至少有兩個子女。
每個中間節點都包含 k-1個元素和 k 個孩子，其中 ceil（m/2） ≤ k ≤ m
每一個葉子節點都包含 k-1 個元素，其中 ceil（m/2） ≤ k ≤ m
所有的葉子結點都位於同一層。
每個節點中的元素從小到大排列，節點當中k-1個元素正好是k個孩子包含的元素的值域划分
每個結點的結構為：（n，A0，K1，A1，K2，A2，… ，Kn，An）
其中，Ki(1≤i≤n) 為關鍵字，且 Ki < Ki + 1 (1 ≤ i ≤n-1)。
Ai(0 ≤ i ≤ n)為指向子樹根結點的指針。且 Ai 所指子樹所有結點中的關鍵字均小於 Ki + 1。
n 為結點中關鍵字的個數，滿足 ceil(m / 2) - 1≤ n ≤m - 1。

示例：三階 B 樹

三階 B 樹

2.1 查詢

以上圖為例：若查詢的數值為５：

第一次磁盤ＩＯ：在內存中定位（與17、35比較），比17小，左子樹；
第二次磁盤ＩＯ：在內存中定位（與８、12比較），比８小，左子樹；
第三次磁盤ＩＯ：在內存中定位（與3、5比較），找到5，終止。

整個過程中，我們可以看出：比較的次數並不比二叉查找樹少，尤其適當某一節點中的數據很多時，但是磁盤 IO 的次數卻是大大減少。比較是在內存中進行的，相比於磁盤 IO 的速度，比較的耗時幾乎可以忽略。所以當樹的高度足夠低的話，就可以極大的提高效率。相比之下，節點中的元素多點也沒關系，僅僅是多了幾次內存交互而已，只要不超過磁盤頁的大小即可。

注意：

B 樹主要用於文件系統以及部分數據庫索引，如 MongoDB。而大部分關系數據庫則使用 B+ 樹做索引，例如：mysql 數據庫；
從查找效率考慮一般要求 B 樹的階數 m >= 3;
B 樹上算法的執行時間主要由讀、寫磁盤的次數來決定，故一次 I/O 操作應讀寫盡可能多的信息。因此 B- 樹的結點規模一般以一個磁盤頁為單位。一個結點包含的關鍵字及其孩子個數取決於磁盤頁的大小。