原文鏈接:https://www.linuxidc.com/Linux/2015-11/124942.htm
XA 將事務的提交分為兩個階段,而這種實現,解決了 binlog 和 redo log的一致性問題,這就是MySQL內部XA的第三種功能。
MySQL為了兼容其它非事物引擎的復制,在server層面引入了 binlog, 它可以記錄所有引擎中的修改操作,因而可以對所有的引擎使用復制功能;MySQL在4.x 的時候放棄redo的復制策略而引入binlog的復制(淘寶丁奇)。
2> InnoDB維持了狀態為Prepare的事務鏈表,將這些事務的xid和Binlog中記錄的xid做比較,如果在Binlog中存在,則提交,否則回滾事務。
將Binlog Group Commit的過程拆分成了三個階段:
1> flush stage 將各個線程的binlog從cache寫到文件中;
2> sync stage 對binlog做fsync操作(如果需要的話;最重要的就是這一步,對多個線程的binlog合並寫入磁盤);
3> commit stage 為各個線程做引擎層的事務commit(這里不用寫redo log,在prepare階段已寫)。每個stage同時只有一個線程在操作。(分成三個階段,每個階段的任務分配給一個專門的線程,這是典型的並發優化)
淘寶對binlog group commit進行了進一步的優化,其原理如下:
從XA恢復的邏輯我們可以知道,只要保證InnoDB Prepare的redo日志在寫Binlog前完成write/sync即可。因此我們對Group Commit的第一個stage的邏輯做了些許修改,大概描述如下:
Step1. InnoDB Prepare,記錄當前的LSN到thd中;
Step2. 進入Group Commit的flush stage;Leader搜集隊列,同時算出隊列中最大的LSN。
Step3. 將InnoDB的redo log write/fsync到指定的LSN (注:這一步就是redo log的組寫入。因為小於等於LSN的redo log被一次性寫入到ib_logfile[0|1])
Step4. 寫Binlog並進行隨后的工作(sync Binlog, InnoDB commit , etc)
也就是將 redo log的write/sync延遲到了 binlog group commit的 flush stage 之后,sync binlog之前。
通過延遲寫redo log的方式,顯式的為redo log做了一次組寫入(redo log group write),並減少了(redo log) log_sys->mutex的競爭。
也就是將 binlog group commit 對應的redo log也進行了 group write. 這樣binlog 和 redo log都進行了優化。
參數innodb_support_xa默認為true,表示啟用XA,雖然它會導致一次額外的磁盤flush(prepare階段flush redo log). 但是我們必須啟用,而不能關閉它。因為關閉會導致binlog寫入的順序和實際的事務提交順序不一致,會導致崩潰恢復和slave復制時發生數據錯誤。如果啟用了log-bin參數,並且不止一個線程對數據庫進行修改,那么就必須啟用innodb_support_xa參數。