【原創】記一次MySQL大表高並發寫入引發CPU飆升的排障過程

本文轉載自查看原文 2018-06-27 10:42 1069 MySQL

一．故障現象... 1

二．初步分析... 2

三．排障過程... 2

1．排查是否QPS或insert並發請求上升導致問題發生... 2

2．排查是否鎖資源等待或block導致了insert變慢... 3

3．排查是否表上無用索引導致的寫入時間較長... 5

4、人工抓取perf，排查CPU上升期間的資源消耗... 5

5、疑似觸發MySQL BUG，進一步分析... 6

四．優化過程... 8

1．初步優化方案... 8

2．刪除一批無用索引，將服務器內存升級到80G.. 9

3．未達預期，還需繼續優化... 11

4．熱表索引分析... 11

5．隨機GUID建立索引的性能測試... 13

6．熱表索引優化方案... 14

7．前綴索引的性能測試... 14

8．刪除熱表上非順序的二級索引... 16

五．最終優化方案... 17

六．總結... 18

一．故障現象

有台生產服務器間歇性CPU飆升，出現大量insert語句的慢查詢，相關業務的響應時間隨之大幅上升

二．初步分析

從監控報告來看，這台服務器的負載並不高

消耗時間高的SQL是insert系列語句

三．排障過程

1．排查是否QPS或insert並發請求上升導致問題發生

排查並發請求沒並有突然升高，反而在問題時間段先大幅下降再小幅上升，這個現象說明MySQL在問題時間段的處理能力發生了下降

表的insert並發頻率並沒有大的波動

2．排查是否鎖資源等待或block導致了insert變慢

以一句慢查詢insert into為例，查詢SQL執行的明細記錄，這句SQL的執行時間在異常時間點達到12秒，對應locktime只有63微秒，排除了表鎖等待，排查問題發生過程中，rowlock相關指標沒有大幅上升，排除rowlock等待，也沒有明顯的block產生，正常執行時<3毫秒。

3．排查是否表上無用索引導致的寫入時間較長

我們都知道表上大量的無用索引不僅浪費存儲空間，也會增加數據寫入的成本，因此在測試環境新建了相同的表，保留索引不變，測試索引維護成本的消耗

看到這句insert into正常執行時的各階段的消耗，總體執行時間不到2ms

4、人工抓取perf，排查CPU上升期間的資源消耗

參考命令如下，

注意：下面命令在生產上執行時有較低概率會導致服務器hang死

#生成mysql進程10秒內資源消耗采樣報告

sudo perf record -p `pidof mysqld` -g -o /tmp/perf.data sleep 10

#查看報告

sudo perf report -i /tmp/perf.data

CPU資源消耗占比較高的是ibuf_get_volume_buffered_count_func函數，它主要有2個功能，一是統計change buffer中對於同一page ，buffer了多少空間，二是在准備插入類型為IBUF_OP_DELETE的操作緩存時，會預估在apply完該page上所有的ibuf entry后還剩下多少記錄。

5、疑似觸發MySQL BUG，進一步分析

通過網上搜索，了解到有相關的BUG

該BUG的鏈接：https://bugs.mysql.com/bug.php?id=77827

下面是BUG描述

MySQL對每個表對象獨立分配rw lock，當開啟change buffer時，Innodb會頻繁的創建dummy table(一種用於線程私有的簡單的索引結構)，這種dummy index事實上無需使用states_latch，因為他是線程私有的；但mysql沒有做區分，在創建rw lock時，會加全局鎖rw_lock_list_mutex來維護全局讀寫鎖鏈表rw_lock_list。

也看到Ali關於這個問題的分析，同時也發現幾個關聯的BUG，直到MySQL5.7.6版本，問題才完全修復