深入理解mysql的底層實現

本文轉載自查看原文 2018-10-18 22:41 7630 mysql/ 數據庫

MySQL 的常用引擎

1. InnoDB

InnoDB 的存儲文件有兩個，后綴名分別是 .frm 和 .idb，其中 .frm 是表的定義文件，而 idb 是數據文件。

InnoDB 中存在表鎖和行鎖，不過行鎖是在命中索引的情況下才會起作用。

InnoDB 支持事務，且支持四種隔離級別（讀未提交、讀已提交、可重復讀、串行化），默認的為可重復讀；而在 Oracle 數據庫中，只支持串行化級別和讀已提交這兩種級別，其中默認的為讀已提交級別。

2. Myisam

Myisam 的存儲文件有三個，后綴名分別是 .frm、.MYD、MYI，其中 .frm 是表的定義文件，.MYD 是數據文件，.MYI 是索引文件。

Myisam 只支持表鎖，且不支持事務。Myisam 由於有單獨的索引文件，在讀取數據方面的性能很高。

3. 存儲結構

InnoDB 和 Myisam 都是用 B+Tree 來存儲數據的。

MySQL 的數據、索引存儲結構

1. 數據存儲的原理（硬盤）

信息存儲在硬盤里，硬盤是由很多的盤片組成，通過盤片表面的磁性物質來存儲數據。

把盤片放在顯微鏡下放大，可以看到盤片表面是凹凸不平的，凸起的地方被磁化，代表數字 1，凹的地方沒有被磁化，代表數字 0，因此硬盤可以通過二進制的形式來存儲表示文字、圖片等的信息。

硬盤有很多種，但是都是由盤片、磁頭、盤片主軸、控制電機、磁頭控制器、數據轉換器、接口、緩存等幾個部分組成。

所有的盤片都固定在一個旋轉軸上，這個軸即盤片主軸。

所有的盤片之間是絕對平行的，在每個盤片的盤面上都有一個磁頭，磁頭與盤片之間的距離比頭發絲的直徑還小。

所有的磁頭連在一個磁頭控制器上，由磁頭控制器負責各個磁頭的運動，磁頭可沿盤片的半徑方向移動，實際上是斜切運動，每個磁頭同一時刻必須是同軸的，即從正上方往下看，所有磁頭任何時候都是重疊的。

由於技術的發展，目前已經有多磁頭獨立技術了，在此不考慮此種情況。

盤片以每分鍾數千轉到上萬轉的速度在高速運轉，這樣磁頭就能對盤片上的指定位置進行數據的讀寫操作。

由於硬盤是高精密設備，塵埃是其大敵，所以必須完全密封。

2. 數據讀寫的原理

硬盤在邏輯上被划分為磁道、柱面以及扇區。

磁頭靠近主軸接觸的表面，即線速度最小的地方，是一個特殊的區域，它不存放任何數據，稱為啟停區或者着陸區，啟停區外就是數據區。

在最外圈，離主軸最遠的地方是 “0” 磁道，硬盤數據的存放就是從最外圈開始的。

在硬盤中還有一個叫 “0” 磁道檢測器的構件，它是用來完成硬盤的初始定位。

盤面

硬盤的盤片一般用鋁合金材料做基片，硬盤的每一個盤片都有上下兩個盤面，一般每個盤面都會得到利用，都可以存儲數據，成為有效盤面，也有極個別的硬盤盤面數為單數。

每一個這樣的有效盤面都有一個盤面號，按順序從上至下從 0 開始編號。

在硬盤系統中，盤面號又叫磁頭號，因為每一個有效盤面都有一個對應的讀寫磁頭，硬盤的盤片組在 2-14 片不等，通常有 2-3 個盤片。

磁道

磁盤在格式化時被划分成許多同心圓，這些同心圓軌跡叫做磁道。

磁道從外向內從 0 開始順序編號，硬盤的每一個盤面有 300-1024 個磁道，新式大容量硬盤每面的磁道數更多，信息以脈沖串的形式記錄在這些軌跡中，這些同心圓不是連續記錄數據，而是被划分成一段段的圓弧。

這些圓弧的角速度一樣，由於徑向長度不一樣，所以線速度也不一樣，外圈的線速度較內圈的線速度大，即同樣的轉速度下，外圈在同樣時間段里，划過的圓弧長度要比內圈划過的圓弧長度大。

每段圓弧叫做一個扇區，扇區從 1 開始編號，每個扇區中的數據作為一個單元同時讀出或寫入。

磁道是看不見的，只是盤面上以特殊形式磁化了的一些磁化區，在磁盤格式化時就已規划完畢。

柱面

所有盤面上的同一磁道構成一個圓柱，通常稱作柱面。

每個圓柱上的磁頭由上而下從 0 開始編號，數據的讀 / 寫按柱面進行，即磁頭讀 / 寫數據時首先在同一柱面內從 0 磁頭開始進行操作，依次向下在同一柱面的不同盤面即磁頭上進行操作。

只有在同一柱面所有的磁頭全部讀 / 寫完畢后磁頭才轉移到下一柱面（同心圓再往里的柱面），因為選取磁頭只需要通過電子切換即可，而選取柱面則必須機械切換，電子切換相當快，比在機械上的磁頭向鄰近磁道移動快得多。

所以，數據的讀 / 寫按柱面進行，而不按盤面進行，也就是說，一個磁道寫滿數據后，就在同一柱面的下一個盤面來寫，一個柱面寫滿后，才移到下一個扇區開始寫數據，讀數據也按照這種方式進行，這樣就提高了硬盤的讀 / 寫效率。

扇區

操作系統以扇區形式將信息存儲在硬盤上，每個扇區包括 512 個字節的數據和一些其他信息，一個扇區有兩個主要部分：存儲數據地點的標識符和存儲數據的數據段。

標識符就是扇區頭標，包括組成扇區三維地址的三個數字：盤面號，柱面號，扇區號（塊號）。

數據段可分為數據和保護數據的糾錯碼（ECC）。在初始准備期間，計算機用 512 個虛擬信息字節（實際數據的存放地）和與這些虛擬信息字節相應的 ECC 數字填入這個部分。

3. 訪盤請求完成過程

1）確定磁盤地址（柱面號，磁頭號，扇區號），內存地址（源 / 目）：

當需要從磁盤讀取數據的時候，系統會將數據的邏輯地址傳遞個磁盤，磁盤的控制電路按照尋址邏輯將邏輯地址翻譯成物理地址，即確定要讀的數據在哪個磁道，哪個扇區。

2）為了讀取這個扇區的數據，需要將磁頭放到這個扇區上方，為了實現這一點：

A. 首先必須找到柱面，即磁頭需要移動對准相應磁道，這個過程叫做尋道，所耗費時間叫做尋道時間。
B. 然后目標扇區旋轉到磁頭下，即磁盤旋轉將目標扇區旋轉到磁頭下，這個過程耗費的時間叫做旋轉時間。

3）即一次訪盤請求（讀 / 寫）完成過程由三個動作組成：

A. 尋道（時間）：磁頭移動定位到指定磁道。
B. 旋轉延遲（時間）：等待指定扇區從磁頭下旋轉經過。
C. 數據傳輸（時間）：數據在磁盤與內存之間的實際傳輸。

4. 磁盤的讀寫原理

系統將文件存儲到磁盤上時，按柱面、磁頭、扇區的方式進行，即最先是第 1 磁道的第一磁頭下的所有扇區，然后是同一柱面的下一個磁頭……

一個柱面存儲滿后就推進到下一個柱面，直到把文件內容全部寫入磁盤。

系統也以相同的順序讀出數據，讀出數據時通過告訴磁盤控制器要讀出扇區所在柱面號、磁頭號和扇區號（物理地址的三個組成部分）進行。

5. 減少 I/O 的預讀原理

由於存儲介質的特性，磁盤本身存取就比主存慢很多，再加上機械運動耗費的時間，磁盤的存取速度往往是主存的幾百分之一。

因此，為了提高效率，要盡量減少磁盤的 I/O。

磁盤往往不是嚴格地按需讀取，而是每次都會預讀，即使只需要一個字節，磁盤也會從這個位置開始，順序向后讀取一定長度的數據放入內存。

這樣做的理論依據是計算機科學中著名的局部性原理：

當一個數據被用到時，其附近的數據一般來說也會被馬上使用。
程序運行期間所需要的數據通常比較集中。
由於磁盤順序讀取的效率很高（不需要尋道時間，只需要很少的旋轉時間），因此對於具有局部性的程序來說，預讀可以提高 I/O 效率。

預讀的長度一般為頁（Page）的整數倍。頁是計算機管理存儲器的邏輯塊，硬件及操作系統往往將主存和磁盤存儲分割為連續的大小相等的塊。

每個存儲塊稱為一頁（在許多操作系統中，頁的大小通常為 4k），主存和磁盤以頁為單位交換數據，當程序要讀取的數據不在主存中時，會觸發一個缺頁異常。

此時系統會向磁盤發出讀盤信息，磁盤會找到數據的起始位置並向后連續讀取一頁或幾頁的數據載入內存中，然后異常返回，程序繼續運行。

6. MySQL 的索引

索引是一種用來實現 MySQL 高效獲取數據的數據結構。

我們通常所說的在某個字段上建索引，意思就是讓 MySQL 對該字段以索引這種數據結構來存儲，然后查找的時候就有對應的查找算法。

建索引的根本目的是為了查找的優化，特別是當數據很龐大的時候，一般的查找算法有順序查找、折半查找、快速查找等。

但是每種查找算法都只能應用於特定的數據結構之上，例如順序查找依賴於順序結構，折半查找通過二叉查找樹或紅黑樹實現二分搜索。因此在數據之外，數據庫系統還維護着滿足特定查找算法的數據結構。

這些數據結構以某種方式引用數據，這樣就可以在這些數據結構上實現高級查找算法，這種數據結構就是索引。

7. MySQL 的 B+Tree

目前大多數數據庫系統及文件系統都采用 B-Tree 或其變種 B+Tree 作為索引結構。

B+ 樹索引是 B+ 樹在數據庫中的一種實現，是最常見也是數據庫中使用最為頻繁的一種索引。B+ 樹中的 B 代表平衡，而不是二叉。

因為 B+ 樹是從最早的平衡二叉樹演化而來的。B+ 樹是由二叉查找樹、平衡二叉樹（AVLTree）和平衡多路查找樹（B-Tree）逐步優化而來。

二叉查找樹：左子樹的鍵值小於根的鍵值，右子樹的鍵值大於根的鍵值。

AVL 樹：平衡二叉樹（AVL 樹）在符合二叉查找樹的條件下，還滿足任何節點的兩個子樹的高度最大差為 1。

平衡多路查找樹（B-Tree）：為磁盤等外存儲設備設計的一種平衡查找樹。

系統從磁盤讀取數據到內存時是以磁盤塊（block）為基本單位的，位於同一磁盤塊中的數據會被一次性讀取出來，而不是按需讀取。

InnoDB 存儲引擎使用頁作為數據讀取單位，頁是其磁盤管理的最小單位，默認 page 大小是 16k。

系統的一個磁盤塊的存儲空間往往沒有這么大，因此 InnoDB 每次申請磁盤空間時都會是若干地址連續磁盤塊來達到頁的大小 16KB。

InnDB 在把磁盤數據讀入到磁盤時會以頁為基本單位，在查詢數據時如果一個頁中的每條數據都能助於定位數據記錄的位置，這將會減少磁盤 I/O 的次數，提高查詢效率。

B-Tree 結構的數據可以讓系統高效的找到數據所在的磁盤塊。

為了描述 B-Tree，首先定義一條數據記錄為一個二元組 [key, data]，key 為記錄的鍵值，對於不同數據記錄，key 是互不相同的；data 為數據記錄除 key 外的數據。

那么 B-Tree 是滿足下列條件的數據結構：

d 為大於 1 的一個正整數，稱為 B-Tree 的度。
h 為一個正整數，稱為 B-Tree 的高度。
每個非葉子節點由 n-1 個 key 和 n 個指針組成，其中 d<=n<=2d。
每個葉子節點最少包含一個 key 和兩個指針，最多包含 2d-1 個 key 和 2d 個指針，葉節點的指針均為 null 。
所有葉節點具有相同的深度，等於樹高 h。
key 和指針互相間隔，節點兩端是指針。
一個節點中的 key 從左到右非遞減排列。
所有節點組成樹結構。
每個指針要么為 null，要么指向另外一個節點。
如果某個指針在節點 node 最左邊且不為 null，則其指向節點的所有 key 小於 v(key1)，其中 v(key1) 為 node 的第一個 key 的值。
如果某個指針在節點 node 最右邊且不為 null，則其指向節點的所有 key 大於 v(keym)，其中 v(keym) 為 node 的最后一個 key 的值。
如果某個指針在節點 node 的左右相鄰 key 分別是 keyi 和 keyi+1 且不為 null，則其指向節點的所有 key 小於 v(keyi+1) 且大於 v(keyi)。