MySQL之 bin log、redo log和undo log 簡介


日志是MySQL數據庫的重要組成部分,記錄着數據庫運行期間各種狀態信息。MySQL中日志類型有很多種,但對於開發來說,最常見和最重要的就是binlogredologundolog。本篇文章主要對這三種日志類型做一個簡要的介紹。

前置知識

  • 邏輯日志:可以簡單得理解為sql語句;
  • 物理日志:MySQL中數據都是保存在數據頁中的,物理日志記錄的是數據頁上的變更;

binlog

binlogMySQL Server層記錄的日志,也就是說,不管MySQL使用的什么存儲引擎,都會有bin log產生。binlogMySQL中最重要的日志,它記錄了所有的DDLDML(除了查詢語句)語句,即所有修改數據的操作,以二進制的形式存儲在磁盤中,binlog是一種邏輯日志。

binlog 作用

  • 主從復制:在Mater端開啟binlog,然后將binlog發送到各個Slave端,Slave端重放binlog從而達到主從數據一致;
  • 數據恢復:基於時間點,可以通過mysqlbinlog工具來恢復數據;

binlog 主從復制原理

MySQL主從同步主要依靠binlog來實現。這里簡單介紹一下基本原理。

  • 主節點 binlog dump 線程
    當從節點連接主節點時,主節點會創建一個log dump 線程,用於發送binlog的內容。在讀取binlog中的操作時,此線程會對主節點上的binlog加鎖,當讀取完成,甚至在發動給從節點之前,鎖會被釋放;

  • 從節點I/O線程
    當從節點上執行start slave命令之后,從節點會創建一個I/O線程用來連接主節點,請求主庫中更新的binlogI/O線程接收到主節點binlog dump 進程發來的更新之后,保存在本地relaylog中;

  • 從節點SQL線程
    SQL線程負責讀取relaylog中的內容,解析成具體的操作並執行,最終保證主從數據的一致性;

binlog的內容

上面說了,binlog是一種邏輯日志,可以簡單得理解為sql語句,但是實際上還包含着執行的sql語句的反向邏輯。delete對應着delete本身以及反向的insert信息;update包含着對應的update執行前后數據行的相關信息;insert包含自身的insert以及對應的delete信息。

binlog的格式

binlog共有三種格式,分別是statementrow以及mixedMySQL 5.7.7版本之前默認使用的是statementMySQL 5.7.7之后默認使用的是row。日志的格式可以通過my.ini配置文件中的binlog-format來修改。

  • statement:基於sql語句的復制(statement-based replication,SBR),每一條修改數據的sql語句都會記錄到binlog中。

    • 優點:不需要具體記錄某一行的變化,節約空間,減少io,提高性能;
    • 缺點:在執行sysdate()或者sleep()等操作的時候,可能導致主從數據不一致的情況;
  • row:基於行記錄的復制(row-based replication,RBR),不記錄sql語句上下文相關信息,而是記錄哪條記錄被修改的細節。

    • 優點:非常詳細地記錄每一行記錄修改的細節,因而不會出現數據無法被正確復制的情況;
    • 缺點:由於會非常詳細地記錄每一條記錄修改的細節,這樣會產生大量的日志內容。假設現在有一條update語句,修改了很多條記錄,則每條修改記錄都會記錄到binlog。特別地,alter table這個操作,由於表結構的變化,每行記錄都會發生變化,導致日志量暴增;
  • mixed:根據上面所說的,statementrow各有優缺點,因此出現了mixed這個版本,將這二者進行混合。一般情況下使用statement格式來進行保存,當遇到statement無法解決時,切換為row格式來進行保存。

特別地,上面說了,新版本(MySQL 5.7.7之后)默認使用的row格式,這里的row也做了相應的優化,在遇到alter table這個操作時采用statement格式進行記錄,其余操作仍然使用row格式。

binlog的刷盤時機

對於InnoDB存儲引擎來說,只有在事務提交的時候才會記錄binlog,此時記錄還在內存中,MySQL通過sync_binlog來控制binlog的刷盤時機,取值范圍為0-N

  • 0:不強制刷到磁盤,由系統自行判斷何時寫入磁盤中;
  • 1:每次提交后都要將binlog寫入磁盤中;
  • N:每N個事務,才會將binlog寫入磁盤中;

binlog的物理文件大小

my.ini配置文件中,可以通過max_binlog_size來配置binlog的大小。當日志量超過binlog文件的大小時,系統會重新生成一個新的文件來繼續保存文件。當一個事務比較大時,或者是當日志越來越多的時候,此時占據的物理空間太大怎么辦?MySQL提供了一種自動刪除的機制,還是在my.ini配置文件中,可以通過配置expire_logs_days 這個參數來解決,單位為天。當這個參數為0,表示永不刪除;為N時,表示第N天后自動刪除。

redolog

redologInnoDB引擎專有的日志系統。主要是用來實現事務的持久性以及實現crash-safe功能。redolog屬於物理日志,記錄的是sql語句執行之后數據頁上的具體修改內容。

redolog的作用

我們都知道,當MySQL運行的時候,會將數據從磁盤中加載到內存當中。當執行sql語句對數據進行修改時,修改后的內容其實都只是暫時保存到內存當中,如果此時斷電或者出現其他情況,這些修改就會丟失。因而,當修改完數據之后,MySQL會尋找機會將這些內存中的記錄刷回到磁盤當中。但這就出現一個性能問題,主要有兩個方面:

  • InnoDB中是以為數據單位與磁盤進行交互的,而一個事務很可能只是修改了一個頁上的幾個字節,如果將一個完整的數據頁刷回磁盤當中,浪費資源;
  • 一個事務可能涉及到多個數據頁,這些數據頁只是邏輯上連續,在物理上並不連續,使用隨機IO性能太差;

因此,MySQL設計了redolog來記錄事務對數據頁具體做了哪些修改,之后將redolog再刷回磁盤當中。你可能會有疑惑,本來就是想減少io,這不又加上一次io么?InnoDB的設計者在設計之初就已經考慮到了這些。redolog文件一般都比較小,且在刷回磁盤的過程中是順序io,相比於隨機io來說,性能更好。

redolog簡介

redolog由兩部分組成,一個是內存中的日志緩存redo log buffer,一個是磁盤中的日志文件redo log file。當每次對數據記錄進行修改的時候,都會將這些修改內容先寫入redo log buffer中,后續等待合適的時機將內存中的修改刷回到redo log file中。這種先寫日志,再寫磁盤的技術就是WAL(Write-Ahead Logging)技術。需要注意的是redolog比數據頁先刷回磁盤,聚簇索引,二級索引,undo頁面的修改,均需要記錄redolog

redolog的整體流程

如圖所示,當對數據記錄進行修改時,redolog的流程如下:

  • 若數據已在內存中則直接進行修改,否則先將數據從磁盤加載到內存中;
  • 修改完成之后,生成一條redolog,將這條redolog寫入redo log buffer中,記錄的是修改之后的值;
  • 根據選定的策略,將redo log file中的內容刷回到redo log file中;

redolog刷回redo log file的策略

在計算機操作系統中,用戶空間的數據一般無法直接寫入到磁盤中,中間必須先經過操作系統內核空間緩沖區。因此,redo log buffer寫入redo log file實際上是先寫入os buffer中,再通過系統調用fsync()刷回到磁盤中,過程如下:

my.ini配置文件中,可以通過innodb_flush_log_at_trx_commit參數來配置redo log buffer如何刷回redo log file的策略。

  • 0:事務提交后不會將redo log buffer中的日志寫入到os buffer,而是每秒將redo log buffer寫入到os buffer中,再調用fsync()寫入到redo log file中。當系統崩潰時,會丟失1秒鍾的數據;

    image-20210918122048058

  • 1:事務提交后都會將redo log buffer中的日志寫入os buffer,再調用fsync刷到redo log file中。這樣方式即使系統崩潰也不會丟失任何數據,但由於每次事務提交時都要寫入磁盤,性能較差;

    image-20210918122125830

  • 2:事務提交后僅僅將redo log buffer中的日志寫入os buffer,然后每秒調用fsync()os buffer中的日志寫入到redo log file,如果只是MySQL掛了,不會出現數據丟失,但是要是機器宕機則會丟失1秒鍾的數據;

    image-20210918122151973

redo log 格式

redolog采用固定大小,循環寫入的格式,當redolog寫滿之后,會重新從頭開始寫。為什么這么設計呢?

redo log存在的意義主要就是降低對數據頁刷盤的要求redolog記錄了數據頁上的修改,但是當數據頁也刷回到磁盤后,這些記錄就失去作用了。因此當MySQL判斷之前的redolog已經失去作用之后,新數據會將這些失效的數據進行覆蓋。那如何判斷該不該進行覆蓋呢?

上圖是redo log file的示意圖,write pos表示redolog當前記錄的日志序列號LSN(log sequence number)。當數據頁也已經刷回磁盤之后,會更新redo log file中的LSN,表示到這個LSN之前的數據已經落盤,這個LSN就是check pointwrite poscheck point之間的部分是redolog空余的部分,用於記錄新的記錄;check pointwrite pos之間是redolog已經記錄的數據頁修改部分,但此時數據頁還未刷回磁盤的部分。當write pos追上check point時,會先推動check point向前移動,空出位置再記錄新的日志。

啟動innodb的時候,不管上次是正常關閉還是異常關閉,總是會進行恢復操作。恢復時,會先檢查數據頁中的LSN,如果這個LSN小於redolog中的LSN,即write pos位置,說明在redolog上記錄着數據頁上尚未完成的操作,接着就會從最近的一個check point出發,開始同步數據。

那有沒有可能數據頁中的LSN大於redolog中的LSN呢?答案是當然可能。出現這種情況時,這時超出redolog的部分將不會重做,因為這本身就表示已經做過的事情,無需再重做。

redolog與binlog區別

redolog binlog
文件大小 redo log的大小是固定的。 binlog可通過配置參數max_binlog_size設置每個binlog文件的大小。
實現方式 redo logInnoDB引擎層實現的,並不是所有引擎都有。 binlogServer層實現的,所有引擎都可以使用 binlog日志
記錄方式 redo log 采用循環寫的方式記錄,當寫到結尾時,會回到開頭循環寫日志。 binlog 通過追加的方式記錄,當文件大小大於給定值后,后續的日志會記錄到新的文件上
適用場景 redo log適用於崩潰恢復(crash-safe) binlog適用於主從復制和數據恢復

binlogredo log的區別可知:binlog日志只用於歸檔,只依靠binlog是沒有crash-safe能力的。但只有redo log也不行,因為redo logInnoDB特有的,且日志上的記錄落盤后會被覆蓋掉。因此需要binlogredo log二者同時記錄,才能保證當數據庫發生宕機重啟時,數據不會丟失。

兩階段提交

上面簡單介紹了redologbinlog,在對數據進行修改時,他們都會對這些修改進行保存落地,只是一個是物理日志,一個是邏輯日志。那他倆具體在修改過程中是如何執行的呢?

假設現在有一條update語句要執行,update from table_name set c=c+1 where id=2,執行流程如下:

  • 先定位到id=2這一條記錄;
  • 執行器拿到引擎給的行數據,把這個值加上 1,得到新的一行數據,再調用引擎接口寫入這行新數據;
  • 引擎將這行新數據更新到內存中,同時將這個更新操作記錄到redolog里面,此時 redolog 處於 prepare 狀態。然后告知執行器執行完成了,隨時可以提交事務;
  • 執行器生成這個操作的 binlog,並把binlog寫入磁盤;
  • 執行器調用引擎的提交事務接口,引擎把剛剛寫入的 redo log 改成提交(commit)狀態,更新完成;

示意圖如下所示:

這種將redolog的寫入拆分成preparecommit兩個步驟的過程稱之為兩階段提交

redologbinlog都可以用於表示事務的提交狀態,而兩階段提交就是讓這兩個狀態保持邏輯上的一致。如果不使用兩階段提交,而是先寫其中一個再寫另外一個可能會帶來一些問題。

此時還是使用update來舉例。假設當前id=2,有一個字段c=0,分別分析以下情況:

先寫redolog再寫binlog

假設先寫redolog,當redolog寫完,但是binlog還未寫完的時候,此時MySQL突然出現異常導致重啟。由於之前redolog已經寫完,系統重啟后,修改的記錄仍然存在,所以恢復后這一行 c 的值是 1。但由於系統重啟,binlog中並未有這條記錄。之后備份日志的時候,存起來的binlog里面就沒有這條語句。然后你會發現,如果需要用這個 binlog 來恢復臨時庫的話,由於這個語句的binlog丟失,這個臨時庫就會少了這一次更新,恢復出來的這一行 c 的值就是 0,與原庫的值不同。

先寫binlog再寫redolog

假如先寫binlog,然后寫redolog的時候系統重啟。重啟之后,redolog中沒有對c進行修改的記錄,此時c的值還是0。但是 binlog 里面已經記錄了“把 c 從 0 改成 1”這個日志。所以,在之后用 binlog 來恢復的時候就多了一個事務出來,恢復出來的這一行 c 的值就是 1,與原庫的值不同。

因此,綜上所述,如果是先寫某一個日志再寫另一個日志,就會出現數據庫的狀態與使用binlog恢復出來的庫的狀態不一致的情況

undolog

undolog主要用來記錄某條行記錄被修改之前的狀態,記錄的是修改前的數據。這樣的話,當事務進行回滾時,就可以通過undolog將記錄恢復到事務開始前的樣子。事務的原子性和持久性也是依靠undolog來實現的undo log主要記錄了數據的邏輯變化,比如一條INSERT語句,對應一條DELETEundo log,對於每個UPDATE語句,對應一條相反的UPDATEundo log,這樣在發生錯誤時,就能回滾到事務之前的數據狀態。同時,在進行數據恢復的時候,與binlogredolog結合使用,保證了數據恢復的正確性。

undolog的作用流程如下所示:

  • 在事務開始之前將修改前的版本寫入到undo log 中;
  • 開始進行修改,將修改過的數據保存到內存當中;
  • undolog持久化到磁盤當中;
  • 將數據頁刷回到磁盤當中;
  • 事務提交;

需要注意的是,與redolog一樣,undolog也是要先於數據頁刷回到磁盤當中。在恢復數據時,如果undolog是完整的,可以根據undolog來回滾事務。

在一個事務當中,可能會對同一條數據進行多次修改,那么是不是每一次修改前的記錄都要記錄到undolog中呢?這樣的話,會導致undolog日志量太大,此時redolog就要上場了。在一個事務當中,如果是對同一條記錄進行修改,undolog只會記錄事務開始前的原始記錄,當再次對這條記錄進行修改時,redolog會記錄后續的變化。在數據恢復時,redolog完成前滾,undolog完成回滾,二者相互協調完成數據的恢復。過程如下所示:

還有一個功能就是MVCC多版本控制鏈了,這個請參考這篇文章,MVCC 多版本控制鏈

總結

binlogredologundologMySQL中最重要的三個日志,在進行數據恢復時,三者進行協調合作,保證數據恢復的正確性。
22

參考

詳細分析MySQL事務日志(redo log和undo log)

MySQL之binlog日志、undo日志、redo日志

必須了解的mysql三大日志-binlog、redo log和undo log

MySQL的undo,redo,二階段提交思維導圖

MySQL三大日志


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM