MySQL的數據如何恢復到任意時間點?


恢復到任意時間點以定時的做全量備份,以及備份增量的 binlog 日志為前提。恢復到任意時間點首先將全量備份恢復之后,再此基礎上回放增加的 binlog 直至指定的時間點。 

目錄

redo log
  redo log 是啥
  log 何時產生 & 釋放?
  如何寫?
  相關配置
  其他
binlog
  記錄了什么
  何時產生 & 釋放
  區別
數據更新事務流程
  兩階段提交
如何恢復數據?
總結

 

看到這個題目是不是覺得數據庫再也不用擔心服務器 crash 了?

那我們需要學習為什么可以這么做?以及如何做?

即為什么可以恢復到任意時間點?如何恢復到任意時間點?

為什么有了 binlog 還需要 redo log?

事務是如何提交的?事務提交先寫 binlog 還是 redo log?如何保證這兩部分的日志做到順序一致性?

為了保障主從復制安全,故障恢復是如何做的?

上一次課我們學習了一條 select 語句的全部執行過程,那么今天我們就從一條 update 語句開始。

mysql> update T set c=c+1 where ID=2;

其實執行流程和查詢流程一致,只是最后執行器執行的是找到這條數據,並進行更新。

另外,更新過程還涉及到一個重要的日志模塊,即 redo log(重做日志)和 binlog(歸檔日志)。

我個人是只聽過 binlog 的。

redo log

和大多數關系型數據庫一樣,InnoDB 記錄了對數據文件的物理更改,並保證總是日志先行

也就是所謂的 WAL(Write-Ahead Logging),即在持久化數據文件前,保證之前的 redo 日志已經寫到磁盤。

MySQL 的每一次更新並沒有每次都寫入磁盤,InnoDB 引擎會先將記錄寫到 redo log 里,並更新到內存中,然后再適當的時候,再把這個記錄更新到磁盤。

這里有必要貼一下 InnoDB 的存儲結構圖:

如果下面看的各種空間懵逼了,建議回來看一眼這個圖。

redo log 是啥

當數據庫對數據做修改的時候,需要把數據頁從磁盤讀到 buffer pool 中,然后在 buffer pool 中進行修改,那么這個時候 buffer pool 中的數據頁就與磁盤上的數據頁內容不一致,我們稱 buffer pool 的數據頁為 dirty page 臟數據

這里也可以看出,所有的更新操作都是現在 dirty page 中進行的。

如果這個時候發生非正常的 DB 服務重啟,那么這些數據還沒在內存,並沒有同步到磁盤文件中(注意,同步到磁盤文件是個隨機 IO),也就是會發生數據丟失

如果這個時候,能夠在有一個文件,當 buffer pool 中的 dirty page 變更結束后,把相應修改記錄記錄到這個文件(注意,記錄日志是順序 IO),那么當 DB 服務發生 crash 的情況,恢復 DB 的時候,也可以根據這個文件的記錄內容,重新應用到磁盤文件,數據保持一致。

這個文件就是 redo log ,用於記錄數據修改后的記錄,順序記錄。

我理解的,redo log 就是存放 dirty page 的物理空間。

log 何時產生 & 釋放?

在事務開始之后就產生 redo log,redo log 的落盤並不是隨着事務的提交才寫入的,而是在事務的執行過程中,便開始寫入 redo log 文件中。

當對應事務的臟頁寫入到磁盤之后,redo log 的使命也就完成了,重做日志占用的空間就可以重用(被覆蓋)。

如何寫?

Redo log 文件以 ib_logfile[number] 命名,並以順序的方式寫入文件文件,寫滿時則回溯到第一個文件,進行覆蓋寫。

如圖所示:

  • write pos 是當前記錄的位置,一邊寫一邊后移,寫到最后一個文件末尾后就回到 0 號文件開頭;
  • checkpoint 是當前要擦除的位置,也是往后推移並且循環的,擦除記錄前要把記錄更新到數據文件;

write pos 和 checkpoint 之間還空着的部分,可以用來記錄新的操作。

如果 write pos 追上 checkpoint,表示寫滿,這時候不能再執行新的更新,得停下來先擦掉一些記錄,把 checkpoint 推進一下。

Redo log 文件是循環寫入的,在覆蓋寫之前,總是要保證對應的臟頁已經刷到了磁盤

在非常大的負載下,Redo log 可能產生的速度非常快,導致頻繁的刷臟操作,進而導致性能下降。

通常在未做 checkpoint 的日志超過文件總大小的 76% 之后,InnoDB 認為這可能是個不安全的點,會強制的 preflush 臟頁,導致大量用戶線程 stall 住。

如果可預期會有這樣的場景,我們建議調大 redo log 文件的大小。可以做一次干凈的 shutdown,然后修改 Redo log 配置,重啟實例。

相關配置

默認情況下,對應的物理文件位於數據庫的 data 目錄下的 ib_logfile1ib_logfile2

innodb_log_group_home_dir 指定日志文件組所在的路徑,默認./ ,表示在數據庫的數據目錄下。
innodb_log_files_in_group 指定重做日志文件組中文件的數量,默認2
# 關於文件的大小和數量,由一下兩個參數配置
innodb_log_file_size 重做日志文件的大小。
innodb_mirrored_log_groups 指定了日志鏡像文件組的數量,默認1

其他

redo log 有一個緩存區 Innodb_log_buffer,默認大小為 8M,Innodb 存儲引擎先將重做日志寫入 innodb_log_buffer 中。

然后會通過以下三種方式將 innodb 日志緩沖區的日志刷新到磁盤:

1、Master Thread 每秒一次執行刷新 Innodb_log_buffer 到重做日志文件;
2、每個事務提交時會將重做日志刷新到重做日志文件;
3、當 redo log 緩存可用空間少於一半時,重做日志緩存被刷新到重做日志文件;

有了 redo log,InnoDB 就可以保證即使數據庫發生異常重啟,之前提交的記錄都不會丟失,這個能力稱為 crash-safe

CrashSafe 能夠保證 MySQL 服務器宕機重啟后:

  • 所有已經提交的事務的數據仍然存在。
  • 所有沒有提交的事務的數據自動回滾。

binlog

如前文所講,MySQL 整體可以分為 Server 層和引擎層。

其實,redo log 是屬於引擎層的 InnoDB 所特有的日志,而 Server 層也有自己的日志,即 binlog(歸檔日志)。

記錄了什么

邏輯格式的日志,可以簡單認為就是執行過的事務中的 sql 語句。

但又不完全是 sql 語句這么簡單,而是包括了執行的 sql 語句(增刪改)反向的信息。

也就意味着 delete 對應着 delete 本身和其反向的 insert;update 對應着 update 執行前后的版本的信息;insert 對應着 delete 和 insert 本身的信息。

何時產生 & 釋放

事務提交的時候,一次性將事務中的 sql 語句按照一定的格式記錄到 binlog 中。因此,對於較大事務的提交,可能會變得比較慢一些。

binlog 的默認是保持時間由參數 expire_logs_days 配置,也就是說對於非活動的日志文件,在生成時間超過配置的天數之后,會被自動刪除。

區別

1、redo log 是 InnoDB 引擎特有的,binlog 是 MySQL 的 Server 層實現,所有引擎都可以使用;
2、內容不同:redo log 是物理日志,記錄的是在數據頁上做了什么修改,是正在執行中的 dml 以及 ddl 語句;而 binlog 是邏輯日志,記錄的是語句的原始邏輯,已經提交完畢之后的 dml 以及 ddl sql 語句,如「給 ID=2 的這一行的 c 字段加 1」;
3、寫方式不同:redo log 是循環寫的,空間固定;binlog 是可以一直追加寫的,一個文件寫到一定大小后,會繼續寫下一個,之前寫的文件不會被覆蓋;
4、作用不同:redo log 主要用來保證事務安全,作為異常 down 機或者介質故障后的數據恢復使用,binlog 主要用來做主從復制和即時點恢復時使用;
5、另外,兩者日志產生的時間,可以釋放的時間,在可釋放的情況下清理機制,都是完全不同的。


數據更新事務流程

有了對這兩個日志的概念性理解,我們再來看執行器和 InnoDB 引擎在執行這個簡單的 update 語句時的內部流程。

1、執行器先找引擎取 ID=2 這一行。ID 是主鍵,引擎直接用樹搜索找到這一行。如果 ID=2 這一行所在的數據頁本來就在內存中,就直接返回給執行器;否則,需要先從磁盤讀入內存,然后再返回。

2、執行器拿到引擎給的行數據,把這個值加上 1,比如原來是 N,現在就是 N+1,得到新的一行數據,再調用引擎接口寫入這行新數據。

3、引擎將這行新數據更新到內存中,同時將這個更新操作記錄到 redo log 里面,此時 redo log 處於 prepare 狀態。然后告知執行器執行完成了,隨時可以提交事務。

4、執行器生成這個操作的 binlog,並把 binlog 寫入磁盤

5、執行器調用引擎的提交事務接口,引擎把剛剛寫入的 redo log 改成提交(commit)狀態,更新完成。

兩階段提交

上面處理 redo log 和 binlog 看着是不是有點懵逼?

其實這就是所謂的兩階段提交,即 COMMIT 會被自動的分成 prepare 和 commit 兩個階段。

MySQL 在 prepare 階段會生成 xid,然后會在 commit 階段寫入到 binlog 中。在進行恢復時事務要提交還是回滾,是由 Binlog 來決定的。

由上面的二階段提交流程可以看出,通過兩階段提交方式保證了無論在任何情況下,事務要么同時存在於存儲引擎和 binlog 中,要么兩個里面都不存在。

這樣就可以保證事務的 binlog 和 redo log 順序一致性。一旦階段 2 中持久化 Binlog 完成,就確保了事務的提交。

此外需要注意的是,每個階段都需要進行一次 fsync 操作才能保證上下兩層數據的一致性。

PS:記錄 Binlog 是在 InnoDB 引擎 Prepare(即 Redo Log 寫入磁盤)之后,這點至關重要。
另外需要注意的一點就是,SQL 語句產生的 Redo 日志會一直刷新到磁盤(master thread 每秒 fsync redo log),而 Binlog 是事務 commit 時才刷新到磁盤,如果 binlog 太大則 commit 時會慢。

如何恢復數據?

當需要恢復到指定的某一秒時,比如某天下午兩點發現中午十二點有一次誤刪表,需要找回數據,那你可以這么做:

1、首先,找到最近的一次全量備份,如果你運氣好,可能就是昨天晚上的一個備份,從這個備份恢復到臨時庫;

2、然后,從備份的時間點開始,將備份的 binlog 依次取出來,重放到中午誤刪表之前的那個時刻。

這樣你的臨時庫就跟誤刪之前的線上庫一樣了,然后你可以把表數據從臨時庫取出來,按需要恢復到線上庫去。

當遇到 crash 時,恢復的過程也非常簡單:

1、掃描最后一個 Binlog 文件,提取其中的 xid;
2、重做檢查點以后的 redo 日志,搜集處於 prepare 階段的事務鏈表,將事務的 xid 與 binlog 中的 xid 對比,若存在,則提交,否則就回滾;

總結一下,基本頂多會出現下面是幾種情況:

  • 當事務在 prepare 階段 crash,數據庫 recovery 的時候該事務未寫入 Binary log 並且存儲引擎未提交,將該事務 rollback。
  • 當事務在 binlog 階段 crash,此時日志還沒有成功寫入到磁盤中,啟動時會 rollback 此事務。
  • 當事務在 binlog 日志已經 fsync 到磁盤后 crash,但是 InnoDB 沒有來得及 commit,此時 MySQL 數據庫 recovery 的時候將會讀出 binlog 中的 xid,然后告訴 InnoDB 提交這些 xid 的事務,InnoDB 提交完這些事務后會回滾其它的事務,使存儲引擎和二進制日志始終保持一致。

總結起來說就是如果一個事務在 prepare 階段中落盤成功,並在 MySQL Server 層中的 binlog 也寫入成功,那這個事務必定 commit 成功。

總結

介紹了 MySQL 里面最重要的兩個日志,即物理日志 redo log 和邏輯日志 binlog。

redo log 用於保證 crash-safe 能力。innodb_flush_log_at_trx_commit 這個參數設置成 1 的時候,表示每次事務的 redo log 都直接持久化到磁盤。這個參數我建議你設置成 1,這樣可以保證 MySQL 異常重啟之后數據不丟失。

sync_binlog 這個參數設置成 1 的時候,表示每次事務的 binlog 都持久化到磁盤。這個參數我也建議你設置成 1,這樣可以保證 MySQL 異常重啟之后 binlog 不丟失。

參考鏈接:

MySQL是如何做到可以恢復到任意一秒狀態的?

http://www.ywnds.com/?p=7892

http://mysql.taobao.org/monthly/2015/05/01/

http://www.importnew.com/28039.html

https://github.com/debitCrossBlockchain/interview__reference/blob/master/01.%E9%98%BF%E9%87%8C%E7%AF%87/1.1.7%20MySQL%E7%9A%84%E6%95%B0%E6%8D%AE%E5%A6%82%E4%BD%95%E6%81%A2%E5%A4%8D%E5%88%B0%E4%BB%BB%E6%84%8F%E6%97%B6%E9%97%B4%E7%82%B9%EF%BC%9F.md

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM