對B+樹與索引在MySQL中的認識 - 碼上歡樂

相關內容簡體繁體

對B+樹與索引在MySQL中的認識

本文轉載自查看原文 2016-04-05 14:53 1667 DataBase

概述
B樹
- 滿足的條件
- 更新后的操作
B+樹
為什么使用B/B+樹？
- 主存讀取
- 磁盤存取原理
MyISAM索引實現
- .MYI文件的組成
- 讀取索引的流程
InnoDB索引實現
索引使用策略及優化
索引選擇性與前綴索引
InnoDB主鍵選擇與插入優化
參考資料

概述

本質：數據庫維護某種數據結構以某種方式引用（指向）數據
索引取舍原則：索引的結構組織要盡量減少查找過程中磁盤I/O的存取次數

B樹

滿足的條件

d為大於1的一個正整數，稱為B-Tree的度
h為一個正整數，稱為B-Tree的高度
每個非葉子節點由n-1個key和n個指針組成，其中d<=n<=2d
每個葉子節點最少包含一個key和兩個指針，最多包含2d-1個key和2d個指針，葉節點的指針均為null
所有葉節點具有相同的深度，等於樹高h
key和指針互相間隔，節點兩端是指針
一個節點中的key從左到右非遞減排列
所有節點組成樹結構
每個指針要么為null，要么指向另外一個節點
一個度為d的B-Tree，設其索引N個key，則其樹高h的上限為logd((N+1)/2),檢索一個key查找節點的個數的漸進復雜度為logd(N)

更新后的操作

插入刪除新的數據記錄會破壞B-Tree的性質，因此在插入刪除時，需要對樹進行一個分裂、合並、轉移等操作以保持B-Tree性質

B+樹

每個節點的指針上限為2d而不是2d+1
內節點不存儲data，只存儲key
葉子節點不存儲指針
在經典B+樹的基礎上，增加了順序訪問指針-->提高區間訪問的性能

為什么使用B/B+樹？

主存讀取

當系統需要讀取主存時，則將地址信號放到地址總線上傳給主存
主存讀到地址信號后，解析信號並定位到指定存儲單元，然后將此存儲單元數據放到數據總線上，供其它部件讀取
主存存取的時間僅與存取次數呈線性關系，因為不存在機械操作，兩次存取的數據的“距離”不會對時間有任何影響

磁盤存取原理

磁盤轉動，每個磁頭不動，負責讀取內容
不過已經有了多磁頭獨立技術
局部性原理
磁盤預讀：長度一般以頁的整數倍為單位

MyISAM索引實現

使用B+樹作為索引結構，data存放數據記錄的地址
索引文件與數據文件分離
主索引和輔助索引（Secondary key）在結構上沒有任何區別，只是主索引要求key是唯一的，而輔助索引的key可以重復
非聚集：MyISAM中索引檢索的算法為首先按照B+Tree搜索算法搜索索引，如果指定的Key存在，則取出其data域的值，然后以data域的值為地址，讀取相應數據記錄

.MYI文件的組成

整個索引文件的基本信息state
各索引的限制信息base
各索引的定義信息keydef
各索引記錄的概要信息recinfo

讀取索引的流程

query請求，直接讀取key cache中的cache block，有就返回
沒有就到.MYI文件中以file block方式讀取數據
再以相同的格式存取key cache
再將key cache中的數據返回

InnoDB索引實現

也是使用B+樹

第一個與MyISAM的不同點

第一個重大區別是InnoDB的數據文件本身就是索引文件，表數據文件本身就是按B+Tree組織的一個索引結構
InnoDB的數據文件本身要按主鍵聚集
所以InnoDB要求表必須有主鍵（MyISAM可以沒有）
沒有顯式指定，自動選擇唯一標識列
不存在的話，生成6個字節長整型的隱含字段

第二個與MyISAM的不同點

InnoDB的輔助索引data域存儲相應記錄主鍵的值而不是地址
換句話說，InnoDB的所有輔助索引都引用主鍵作為data域
輔助索引搜索需要檢索兩遍索引：首先檢索輔助索引獲得主鍵，然后用主鍵到主索引中檢索獲得記錄

得出的優化點

不建議使用過長的字段作為主鍵，因為所有輔助索引都引用主索引，過長的主索引會令輔助索引變得過大
用非單調的字段作為主鍵在InnoDB中也不好，因為InnoDB數據文件本身是一顆B+Tree，非單調的主鍵會造成在插入新記錄時數據文件為了維持B+Tree的特性而頻繁的分裂調整，十分低效，而使用自增字段作為主鍵就很不錯了
聚簇索引鍵被更新造成的成本除了索引數據可能會移動，相關的所有記錄數據也要移動

索引使用策略及優化

全列匹配

按照索引中所有列進行精確匹配（這里精確匹配指“=”或“IN”匹配）時，索引可以被用到
理論上索引對順序是敏感的，但是由於MySQL的查詢優化器會自動調整where子句的條件順序以使用適合的索引

最左前綴匹配

當查詢條件精確匹配索引的左邊連續一個或幾個列時，索引可以被用到

查詢條件用到了索引中列的精確匹配，但是中間某個條件未提供

只能用到索引中，從中間斷開前的列
應對
可以增加輔助索引
當中間條件選項較少時，用隔離列的方式，使用IN包含
看情況，比較建立

查詢條件沒有指定索引第一列

不滿足使用索引的條件

匹配某列的前綴字符串

可以使用索引
如果通配符%不出現在開頭，則可以用到索引，但根據具體情況不同可能只會用其中一個前綴

范圍查詢

范圍列可以用到索引（必須是最左前綴），但是范圍列后面的列無法用到索引
同時，索引最多用於一個范圍列，因此如果查詢條件中有兩個范圍列則無法全用到索引
僅用explain可能無法區分范圍索引和多值匹配

查詢條件中含有函數/表達式

一般不使用哦
手工算好再代入

索引選擇性與前綴索引

MyISAM與InnoDB基數統計方式

MyisAM索引的基數值（Cardinality，show index 命令可以看見）是精確的，InnoDB則是估計值
MyisAM統計信息是保存磁盤中，在alter表或Analyze table操作更新此信息
而InnoDB則是在表第一次打開的時候估計值保存在緩存區內

不建議建立索引的情況

表記錄比較少
索引的選擇性低：不重復的索引值（也叫基數，Cardinality）與表記錄數（#T）的比值

前綴索引

用列的前綴代替整個列作為索引key，當前綴長度合適時，可以做到既使得前綴索引的選擇性接近全列索引，同時因為索引key變短而減少了索引文件的大小和維護開銷

缺點

不能用於ORDER BY和GROUP BY操作
也不能用於Covering index（即當索引本身包含查詢所需全部數據時，不再訪問數據文件本身）

InnoDB主鍵選擇與插入優化

如果沒有特別的需要，請永遠使用一個與業務無關的自增字段作為主鍵
InnoDB使用聚集索引，數據記錄本身被存於主索引（一顆B+Tree）的葉子節點上
這就要求同一個葉子節點內（大小為一個內存頁或磁盤頁）的各條數據記錄按主鍵順序存放，因此每當有一條新的記錄插入時，MySQL會根據其主鍵將其插入適當的節點和位置，如果頁面達到裝載因子（InnoDB默認為15/16），則開辟一個新的頁（節點）
如果使用非自增主鍵，每次插入近似隨機，容易引起數據的移動，重新讀目標頁面，碎片也多了，雖然也可以用OPTIMIZE TABLE重建優化，但麻煩啊

參考資料

圖片來源網絡
《高性能MySQL》

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【Mysql】InnoDB 中的 B+ 樹索引 MySQL 的B+樹索引. MySql 索引之 B 樹與 B+ 樹 MySQL 索引與 B+ 樹 MySQL索引：B+樹索引 MySQL中的索引為什么使用B+樹實現 MySQL索引（二）B+樹在磁盤中的存儲 mysql——B樹索引和B+樹索引優劣對比搞懂MySQL InnoDB B+樹索引 MySQL的B+樹索引底層構成

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM