基於Redo Log和Undo Log的MySQL崩潰恢復流程


在之前的文章「簡單了解InnoDB底層原理」聊了一下MySQL的Buffer Pool。這里再簡單提一嘴,Buffer Pool是MySQL內存結構中十分核心的一個組成,你可以先把它想象成一個黑盒子。

黑盒下的更新數據流程

當我們查詢數據的時候,會先去Buffer Pool中查詢。如果Buffer Pool中不存在,存儲引擎會先將數據從磁盤加載到Buffer Pool中,然后將數據返回給客戶端;同理,當我們更新某個數據的時候,如果這個數據不存在於Buffer Pool,同樣會先數據加載進來,然后修改修改內存的數據。被修改過的數據會在之后統一刷入磁盤。

MySQL 崩潰恢復
MySQL 崩潰恢復

這個過程看似沒啥問題,實則不講武德。假設我們修改Buffer Pool中的數據成功,但是還沒來得及將數據刷入磁盤MySQL就掛了怎么辦?按照上圖的邏輯,此時更新之后的數據只存在於Buffer Pool中,如果此時MySQL宕機了,這部分數據將會永久的丟失;

再者,我更新到一半突然發生錯誤了,想要回滾到更新之前的版本,該怎么辦?那不完犢子嗎,連數據持久化的保證、事務回滾都做不到還談什么崩潰恢復?

Redo Log & Undo Log

而通過MySQL能夠實現崩潰恢復的事實來看,MySQL必定實現了某些騷操作。沒錯,這就是接下來我們要介紹的另外的兩個關鍵功能,Redo LogUndo Log

這兩種日志是屬於InnoDB存儲引擎的日志,和MySQL Server的Binlog不是一個維度的日志。

  1. Redo Log 記錄了此次事務**「完成后」** 的數據狀態,記錄的是更新之 **「后」**的值
  2. Undo Log 記錄了此次事務**「開始前」** 的數據狀態,記錄的是更新之 **「前」**的值

所以這兩種日志有明顯的區別,我用一種更加通俗的例子來解釋一下這兩種日志。

Redo Log就像你在命令行敲了很長的命令,敲回車執行,結果報錯了。此時我們只需要再敲個↑就會拿到上一條命令,再執行一遍即可。

Undo Log就像你剛剛在Git中Commit了一下,然后再做一個較為復雜的改動,但是改着改着你的心態崩了,不想要剛剛的改動了,於是直接git reset --hard $lastCommitId回到了上一個版本。

實現日志后的更新流程

有了Redo Log和Undo Log,我們再將上面的那張圖給完善一下。

MySQL 崩潰恢復
MySQL 崩潰恢復

首先,更新數據還是會判斷數據是否存在於Buffer Pool中,不存在則加載。上面我們提到了回滾的問題,在更新Buffer Pool中的數據之前,我們需要先將該數據事務開始之前的狀態寫入Undo Log中。假設更新到一半出錯了,我們就可以通過Undo Log來回滾到事務開始前。

然后執行器會更新Buffer Pool中的數據,成功更新后會將數據最新狀態寫入Redo Log Buffer中。因為一個事務中可能涉及到多次讀寫操作,寫入Buffer中分組寫入,比起一條條的寫入磁盤文件,效率會高很多。

redo-log-buffer
redo-log-buffer

那為什么Undo Log不也搞一個Undo Log Buffer,也給Undo Log提提速,雨露均沾?那我們假設有這個一個Buffer存在於InnoDB,將事務開始前的數據狀態寫入了Undo Log Buffer中,然后開始更新數據。

突然啪一下,很快啊,MySQL由於意外進程退出了,此時會發生一件很尷尬的事情,如果更新的數據一部分已經刷回磁盤了,但是此時事務沒有成功需要回滾,你發現Undo Log隨着進程退出一起沒了,此時就沒有辦法通過Undo Log去做回滾。

那如果剛剛更新完內存,MySQL就掛了呢?此時Redo Log Buffer甚至都可能沒有寫入,即使寫入了也沒有刷到磁盤,Redo Log也丟了。

其實無所謂,因為意外宕機,該事務沒有成功,既然事務事務沒有成功那就需要回滾,而MySQL重啟后會讀取磁盤上的Redo Log文件,將其狀態給加載到Buffer Pool中。而通過磁盤Redo Log文件恢復的狀態和宕機前事務開始前的狀態是一樣的,所以是沒有影響的。然后等待事務commit了之后就會將Redo Log和Binlog刷到磁盤。

流程中仍然存在的問題

你可能認為到這一步就完美了,事實上則不然。假設我們在將Redo Log刷入到磁盤之后MySQL突然宕機了,binlog還沒有來得及寫入。此時重啟,Redo Log所代表的狀態就和Binlog所代表的狀態不一致了。Redo Log恢復到Buffer Pool中的某行的A字段是3,但是任何監聽其Binlog的數據庫讀取出來的數據確是2。

即使Redo Log和Binlog都寫入文件了,但是這個時候MySQL所在的物理機或者VM宕機了,日志仍然會丟失。現在的OS在你寫入文件的時候,會先將改動的內容寫入的OS Cache中,以此來提高效率。然后根據策略(受你配置的參數的影響)來將OS Cache中的數據刷入磁盤。

基於2PC的一致性保障

從這你可以發現一個關鍵的問題,那就是必須保證Redo Log和Binlog在事務提交時的數據一致性,要么都存在,要么都不存在。MySQL是通過 **2PC(two-phase commit protocol)**來實現的。

MySQL 崩潰恢復
MySQL 崩潰恢復

簡單介紹一下2PC,它是一種保證分布式事務數據一致性的協議,它中文名叫兩階段提交,它將分布式事務的提交拆分成了2個階段,分別是Prepare和Commit/Rollback。

就向兩個拳擊手開始比賽之前,裁判會在中間確認兩個選手的狀態,類似於問你准備好了嗎?得到確認之后,裁判才會說Fight

裁判詢問選手的狀態,對應的是第一階段Prepare;得到了肯定的回答之后,裁判宣布比賽正式開始,對應的是第二階段Commit,但是如果有一方選手沒有准備好,裁判會宣布比賽暫停,此時對應的是第一階段失敗的情況,第二階段的狀態會變為Rollback。裁判就對應2PC中的協調者Coordinator,選手就對應參與者Participant

下面我們通過一張圖來看一下整個流程。

2PC刷入磁盤
2PC刷入磁盤

Prepare階段,將Redo Log寫入文件,並刷入磁盤,記錄上內部XA事務的ID,同時將Redo Log狀態設置為Prepare。Redo Log寫入成功后,再將Binlog同樣刷入磁盤,記錄XA事務ID。

Commit階段,向磁盤中的Redo Log寫入Commit標識,表示事務提交。然后執行器調用存儲引擎的接口提交事務。這就是整個過程。

驗證2PC機制的可用性

這就是2PC提交Redo Log和Binlog的過程,那在這個期間發生了異常,2PC這套機制真的能保證數據一致性嗎?

假設Redo Log刷入成功了,但是還沒來得及刷入Binlog MySQL就掛了。此時重啟之后會發現Redo Log並沒有Commit標識,此時根據記錄的XA事務找到這個事務,進行回滾。

如果Redo Log刷入成功,而且Binlog也刷入成功了,但是還沒有來得及將Redo Log從Prepare改成Commit MySQL就掛了,此時重啟會發現雖然Redo Log沒有Commit標識,但是通過XID查詢到的Binlog卻已經成功刷入磁盤了。

此時,雖然Redo Log沒有Commit標識,MySQL也要提交這個事務。因為Binlog一旦寫入,就可能會被從庫或者任何消費Binlog的消費者給消費。如果此時MySQL不提交事務,則可能造成數據不一致。而且目前Redo Log和Binlog從數據層面上,其實已經Ready了,只是差個標志位。

好了以上就是本篇博客的全部內容了,如果你覺得這篇文章對你有幫助,還麻煩點個贊關個注分個享留個言

歡迎微信搜索關注【SH的全棧筆記】,查看更多相關文章


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM