Mysql面對高並發修改的問題處理【2】

本文轉載自查看原文 2020-09-06 21:28 690

一、線上修改表結構有哪些風險？

如果有一天業務系統需要增大一個字段長度，能否在線上直接修改呢？在回答這個問題前，我們先來看一個案例：

以上語句嘗試修改user表的name字段長度，語句被阻塞。按照慣例，我們檢查一下當前進程：

從進程可以看出alter語句在等待一個元數據鎖，而這個元數據鎖很可能是上面這條select語句引起的，事實正是如此。在執行DML（select、update、delete、insert）操作時，會對表增加一個元數據鎖，這個元數據鎖是為了保證在查詢期間表結構不會被修改，因此上面的alter語句會被阻塞。那么如果執行順序相反，先執行alter語句，再執行DML語句呢？DML語句會被阻塞嗎？例如我正在線上環境修改表結構，線上的DML語句會被阻塞嗎？答案是：不確定。

在MySQL5.6開始提供了online ddl功能，允許一些DDL語句和DML語句並發，在當前5.7版本對online ddl又有了增強，這使得大部分DDL操作可以在線進行。詳見：https://dev.mysql.com/doc/refman/5.7/en/innodb-create-index-overview.html

所以對於特定場景執行DDL過程中，DML是否會被阻塞需要視場景而定。

總結：通過這個例子我們對元數據鎖和online ddl有了一個基本的認識，如果我們在業務開發過程中有在線修改表結構的需求，可以參考以下方案：

1、盡量在業務量小的時間段進行；

2、查看官方文檔，確認要做的表修改可以和DML並發，不會阻塞線上業務；

3、推薦使用percona公司的pt-online-schema-change工具，該工具被官方的online ddl更為強大，它的基本原理是：通過insert… select…語句進行一次全量拷貝，通過觸發器記錄表結構變更過程中產生的增量，從而達到表結構變更的目的。

例如要對A表進行變更，主要步驟為：

創建目的表結構的空表，A_new;
在A表上創建觸發器，包括增、刪、改觸發器;
通過insert…select…limit N 語句分片拷貝數據到目的表
Copy完成后，將A_new表rename到A表。

二、死鎖問題的分析

在線上環境下死鎖的問題偶有發生，死鎖是因為兩個或多個事務相互等待對方釋放鎖，導致事務永遠無法終止的情況（事務結束才能釋放持有的鎖）。為了分析問題，我們下面將模擬一個簡單死鎖的情況，然后從中總結出一些分析思路。

演示環境：MySQL5.7.20 事務隔離級別：RR

表user：

CREATE TABLE `user` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`name` varchar(300) DEFAULT NULL,
`age` int(11) DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=5 DEFAULT CHARSET=utf8

下面演示事務1、事務2工作的情況：

	事務1	事務2	事務監控
T1	begin; Query OK, 0 rows affected (0.00 sec)	begin; Query OK, 0 rows affected (0.00 sec)
T2	select * from user where id=3 for update; +----+------+------+ \| id \| name \| age \| +----+------+------+ \| 3 \| sun \| 20 \| +----+------+------+ 1 row in set (0.00 sec)	select * from user where id=4 for update; +----+------+------+ \| id \| name \| age \| +----+------+------+ \| 4 \| zhou \| 21 \| +----+------+------+ 1 row in set (0.00 sec)	select * from information_schema.INNODB_TRX；通過查詢元數據庫innodb事務表，監控到當前運行事務數為2，即事務1、事務2。
T3	update user set name='haha' where id=4; 因為id=4的記錄已被事務2加上行鎖，該語句將阻塞		監控到當前運行事務數為2。
T4	阻塞狀態	update user set name='hehe' where id=3; ERROR 1213 (40001): Deadlock found when trying to get lock; try restarting transaction id=3的記錄已被事務1加上行鎖，而本事務持有id=4的記錄行鎖，此時InnoDB存儲引擎檢查出死鎖，本事務被回滾。	事務2被回滾，事務1仍在運行中，監控當前運行事務數為1。
T5	Query OK, 1 row affected (20.91 sec) Rows matched: 1 Changed: 1 Warnings: 0 由於事務2被回滾，原來阻塞的update語句被繼續執行。		監控當前運行事務數為1。
T6	commit； Query OK, 0 rows affected (0.00 sec)		事務1已提交、事務2已回滾，監控當前運行事務數為0。

這是一個簡單的死鎖場景，事務1、事務2彼此等待對方釋放鎖，InnoDB存儲引擎檢測到死鎖發生，讓事務2回滾，這使得事務1不再等待事務B的鎖，從而能夠繼續執行。那么InnoDB存儲引擎是如何檢測到死鎖的呢？為了弄明白這個問題，我們先檢查此時InnoDB的狀態：

show engine innodb status\G

------------------------
LATEST DETECTED DEADLOCK
------------------------
2018-01-14 12:17:13 0x70000f1cc000
*** (1) TRANSACTION:
TRANSACTION 5120, ACTIVE 17 sec starting index read
mysql tables in use 1, locked 1
LOCK WAIT 3 lock struct(s), heap size 1136, 2 row lock(s)
MySQL thread id 10, OS thread handle 123145556967424, query id 2764 localhost root updating
update user set name='haha' where id=4
*** (1) WAITING FOR THIS LOCK TO BE GRANTED:
RECORD LOCKS space id 94 page no 3 n bits 80 index PRIMARY of table `test`.`user` trx id 5120 lock_mode X locks rec but not gap waiting
Record lock, heap no 5 PHYSICAL RECORD: n_fields 5; compact format; info bits 0
0: len 4; hex 80000004; asc ;;
1: len 6; hex 0000000013fa; asc ;;
2: len 7; hex 520000060129a6; asc R ) ;;
3: len 4; hex 68616861; asc haha;;
4: len 4; hex 80000015; asc ;;

*** (2) TRANSACTION:
TRANSACTION 5121, ACTIVE 12 sec starting index read
mysql tables in use 1, locked 1
3 lock struct(s), heap size 1136, 2 row lock(s)
MySQL thread id 11, OS thread handle 123145555853312, query id 2765 localhost root updating
update user set name='hehe' where id=3
*** (2) HOLDS THE LOCK(S):
RECORD LOCKS space id 94 page no 3 n bits 80 index PRIMARY of table `test`.`user` trx id 5121 lock_mode X locks rec but not gap
Record lock, heap no 5 PHYSICAL RECORD: n_fields 5; compact format; info bits 0
0: len 4; hex 80000004; asc ;;
1: len 6; hex 0000000013fa; asc ;;
2: len 7; hex 520000060129a6; asc R ) ;;
3: len 4; hex 68616861; asc haha;;
4: len 4; hex 80000015; asc ;;

*** (2) WAITING FOR THIS LOCK TO BE GRANTED:
RECORD LOCKS space id 94 page no 3 n bits 80 index PRIMARY of table `test`.`user` trx id 5121 lock_mode X locks rec but not gap waiting
Record lock, heap no 7 PHYSICAL RECORD: n_fields 5; compact format; info bits 0
0: len 4; hex 80000003; asc ;;
1: len 6; hex 0000000013fe; asc ;;
2: len 7; hex 5500000156012f; asc U V /;;
3: len 4; hex 68656865; asc hehe;;
4: len 4; hex 80000014; asc ;;

*** WE ROLL BACK TRANSACTION (2)

InnoDB狀態有很多指標，這里我們截取死鎖相關的信息，可以看出InnoDB可以輸出最近出現的死鎖信息，其實很多死鎖監控工具也是基於此功能開發的。

在死鎖信息中，顯示了兩個事務等待鎖的相關信息（藍色代表事務1、綠色代表事務2），重點關注：WAITING FOR THIS LOCK TO BE GRANTED和HOLDS THE LOCK(S)。

WAITING FOR THIS LOCK TO BE GRANTED表示當前事務正在等待的鎖信息，從輸出結果看出事務1正在等待heap no為5的行鎖，事務2正在等待 heap no為7的行鎖；

HOLDS THE LOCK(S)：表示當前事務持有的鎖信息，從輸出結果看出事務2持有heap no為5行鎖。

從輸出結果看出，最后InnoDB回滾了事務2。

那么InnoDB是如何檢查出死鎖的呢？

我們想到最簡單方法是假如一個事務正在等待一個鎖，如果等待時間超過了設定的閾值，那么該事務操作失敗，這就避免了多個事務彼此長等待的情況。參數innodb_lock_wait_timeout正是用來設置這個鎖等待時間的。

如果按照這個方法，解決死鎖是需要時間的（即等待超過innodb_lock_wait_timeout設定的閾值），這種方法稍顯被動而且影響系統性能，InnoDB存儲引擎提供一個更好的算法來解決死鎖問題，wait-for graph算法。簡單的說，當出現多個事務開始彼此等待時，啟用wait-for graph算法，該算法判定為死鎖后立即回滾其中一個事務，死鎖被解除。該方法的好處是：檢查更為主動，等待時間短。

下面是wait-for graph算法的基本原理：

為了便於理解，我們把死鎖看做4輛車彼此阻塞的場景：

4輛車看做4個事務，彼此等待對方的鎖，造成死鎖。wait-for graph算法原理是把事務作為節點，事務之間的鎖等待關系，用有向邊表示，例如事務A等待事務B的鎖，就從節點A畫一條有向邊到節點B，這樣如果A、B、C、D構成的有向圖，形成了環，則判斷為死鎖。這就是wait-for graph算法的基本原理。

總結：

1、如果我們業務開發中出現死鎖如何檢查出？剛才已經介紹了通過監控InnoDB狀態可以得出，你可以做一個小工具把死鎖的記錄收集起來，便於事后查看。

2、如果出現死鎖，業務系統應該如何應對？從上文我們可以看到當InnoDB檢查出死鎖后，對客戶端報出一個Deadlock found when trying to get lock; try restarting transaction信息，並且回滾該事務，應用端需要針對該信息，做事務重啟的工作，並保存現場日志事后做進一步分析，避免下次死鎖的產生。

三、鎖等待問題的分析

在業務開發中死鎖的出現概率較小，但鎖等待出現的概率較大，鎖等待是因為一個事務長時間占用鎖資源，而其他事務一直等待前個事務釋放鎖。

	事務1	事務2	事務監控
T1	begin; Query OK, 0 rows affected (0.00 sec)	begin; Query OK, 0 rows affected (0.00 sec)
T2	select * from user where id=3 for update; +----+------+------+ \| id \| name \| age \| +----+------+------+ \| 3 \| sun \| 20 \| +----+------+------+ 1 row in set (0.00 sec)	其他查詢操作	select * from information_schema.INNODB_TRX；通過查詢元數據庫innodb事務表，監控到當前運行事務數為2，即事務1、事務2。
T3	其他查詢操作	update user set name='hehe' where id=3; 因為id=3的記錄被事務1加上行鎖，所以該語句將阻塞（即鎖等待）	監控到當前運行事務數為2。
T4	其他查詢操作	ERROR 1205 (HY000): Lock wait timeout exceeded; try restarting transaction 鎖等待時間超過閾值，操作失敗。注意：此時事務2並沒有回滾。	監控到當前運行事務數為2。
T5	commit;		事務1已提交，事務2未提交，監控到當前運行事務數為1。

從上述可知事務1長時間持有id=3的行鎖，事務2產生鎖等待，等待時間超過innodb_lock_wait_timeout后操作中斷，但事務並沒有回滾。如果我們業務開發中遇到鎖等待，不僅會影響性能，還會給你的業務流程提出挑戰，因為你的業務端需要對鎖等待的情況做適應的邏輯處理，是重試操作還是回滾事務。

在MySQL元數據表中有對事務、鎖等待的信息進行收集，例如information_schema數據庫下的INNODB_LOCKS、INNODB_TRX、INNODB_LOCK_WAITS，你可以通過這些表觀察你的業務系統鎖等待的情況。你也可以用一下語句方便的查詢事務和鎖等待的關聯關系：

SELECT     r.trx_id waiting_trx_id,     r.trx_mysql_thread_id waiting_thread,     r.trx_query wating_query,     b.trx_id blocking_trx_id,     b.trx_mysql_thread_id blocking_thread,     b.trx_query blocking_query FROM     information_schema.innodb_lock_waits w         INNER JOIN     information_schema.innodb_trx b ON b.trx_id = w.blocking_trx_id         INNER JOIN     information_schema.innodb_trx r ON r.trx_id = w.requesting_trx_id;

結果：

waiting_trx_id: 5132
waiting_thread: 11
wating_query: update user set name='hehe' where id=3
blocking_trx_id: 5133
blocking_thread: 10
blocking_query: NULL

總結：

1、請對你的業務系統做鎖等待的監控，這有助於你了解當前數據庫鎖情況，以及為你優化業務程序提供幫助；

2、業務系統中應該對鎖等待超時的情況做合適的邏輯判斷。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 mysql如何處理高並發(轉) 淺談java中如何處理高並發的問題 Swoole如何處理高並發高並發處理 redis+php+mysql處理高並發實例 mysql處理高並發，防止庫存超賣 MYSQL處理高並發，防止庫存超賣（圖解) 關於處理高並發，防止庫存超賣的問題高並發的幾種處理方法 Java面試處理高並發