樹結構系列(四):MongoDb 使用的到底是 B 樹,還是 B+ 樹?


文章首發於「陳樹義」公眾號及個人博客 shuyi.tech

文章首發於「陳樹義」公眾號及個人博客 shuyi.tech,歡迎訪問更多有趣有價值的文章。

關於 B 樹與 B+ 樹,網上有一個比較經典的問題:為什么 MongoDb 使用 B 樹,而 MySQL 索引使用 B+ 樹?

但實際上 MongoDb 真的用的是 B 樹嗎?

通過查閱資料,我從 MongoDb 的官網和 WiredTiger 官網找到了答案。MongoDb 官網關於存儲引擎(Storage Engine)的描述寫道:從 MongoDb 3.2 版本開始,其使用了 WiredTiger 作為其默認的存儲引擎。

文檔地址:WiredTiger Storage Engine — MongoDB Manual

而從 WiredTiger 官網文檔,我們可以知道:WiredTiger 使用的是 B+ 樹作為其存儲結構。

文檔地址:WiredTiger: Tuning page size and compression

那為什么會出現很多資料說 MongoDb 使用 B 樹作為存儲的數據結構呢?我想可能有兩個原因:一個原因可能是 B+ Tree 本身是 B 樹的一種優化,所以很多人就直接把 B+ 樹說成 B 樹了。另一個原因可能是 MongoDb 3.2 之前,確實使用 B 樹作為存儲的數據結構。

文章首發於「陳樹義」公眾號及個人博客 shuyi.tech,歡迎訪問更多有趣有價值的文章。

對於這兩個原因,我沒有深入去探尋,有答案的朋友可以留言討論一下。但我知道,無論是什么原因,都不影響我們對這個問題的討論。表面上,我們是在討論 MongoDb 與 MySQL 存儲的數據結構,但實際上我們是在討論 B 樹和 B+ 樹這兩種數據結構的特點。

因此,無論 MongoDb 使用的是 B 樹,還是 B+ 樹。只要我們弄清楚 B 樹與 B+ 樹之間的區別,我們就可以在合適的時候,選擇合適的數據結構。

B 樹與 B+ 樹,其比較大的特點是:B 樹對於特定記錄的查詢,其時間復雜度更低。而 B+ 樹對於范圍查詢則更加方便,另外 B+ 樹相對於 B 樹來說更加扁平。

對於 MongoDb 來說,其是非關系型數據庫,較少做聯表的范圍查詢。如果這確實是 MongoDb 非常典型的使用場景,使用 B 樹其實可以加快其查詢速度。

但實際上 MongoDb 3.2 之后,其使用了 B+ 樹作為其數據結構。B+ 樹其在范圍查詢方面更有優勢,那有可能是 B+ 樹更加扁平,可以讓其更加快速地找到數據,加快其查找速度。也有可能是 MongoDb 的范圍查詢特性使用更加廣泛了。

說到這里,你可能有點迷糊,那實際情況到底是什么呢?

其實我自己並沒有找到答案。我的思考也是到此為止,我也並沒有找到更好的答案。與其腹死胎中,還不如寫下來與大家討論。或許不久之后我就忽然大悟,明白這其中的道理,到時候再來給大家分享。

寫到這里,腦袋里蹦出另外一個問題:那為啥 MongoDb 要使用 B+ 樹 ?而不使用平衡二叉樹?嗯,答案其實很簡單——是因為需要使用 B 樹能加載大數據量的特性,否則其實現不了這么大量數據的查詢和排序。

如果你有其他看法,歡迎留言與我交流。

參考資料


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM