阿里數據庫性能診斷的利器——SQL執行干預


概述

在業務數據庫性能問題診斷中,如果發現一個業務性能很差跟某個SQL有關,應用連接池幾乎被該SQL占滿,同時數據庫服務器上也不堪重負。此時情況很緊急,業務改SQL重發布已經來不及了,運維能選擇的操作不多。如批量重啟應用、數據庫切換或者重啟。此時業務中斷一下,很可能很快壓力又上來,問題依然在那個SQL。前篇文章《阿里數據庫性能診斷的利器——SQL全量日志》分享了如何定位問題SQL,本文就分享阿里數據庫們如何處理這個問題SQL。

ORACLE在SQL性能診斷方面的功能非常豐富,一直被其他數據庫模仿。其中Outline和SQL Profile功能就非常有用。當業務SQL在生產環境執行計划走錯后(如表連接順序或算法不對,或者索引選擇的不對等等),此時可以在該問題SQL上使用hint先生成一個正確的執行計划,然后用Outlines存儲這個執行計划,然后再跟執行計划緩存里在用的執行計划進行交換,從而讓業務SQL回到正確的執行計划上,性能問題也就迎刃而解了。雖然這個過程有點復雜,也有很多注意事項,但終究是一個不錯的選擇。ORACLE在10g后將Outlines功能進一步改進推出SQL Profiles功能,更容易生成、更改和控制SQL執行計划。詳情參考后面文章。

MySQL數據庫在SQL性能優化方面能力一般,數據庫性能又嚴重依賴主機IO和CPU能力。面對這個問題社區版的MySQL數據庫只有選擇切換或重啟。

 

在互聯網業務中,數據庫請求數QPS非常高,當SQL有性能問題時,很快就會將數據庫的某個資源(CPUIO)耗盡,進而拖慢其他正常的業務SQL。而應用服務器集群里每個APP的連接池也會相應被耗盡,從而可能出現應用相繼掛掉,引起雪崩。阿里數據庫AliSQL和OceanBase針對這個場景都有一個SQL干預手段,即SQL執行計划修改或者限流。

  

阿里數據庫內核的SQL執行干預功能

 

AliSQL的SQL執行計划干預和SQL限流

AliSQL是阿里巴巴數據庫內核團隊曾經維護的一個開源MySQL的分支,針對MySQL內核做了很多加強和優化。其中一個獨特的功能就是SQL執行計划干預和SQL限流。

AliSQL的SQL執行計划干預也是利用hint先生成正確的執行計划,然后再替換掉實際運行中的執行計划。能修改的也只是索引。並且其替換並不像ORACLE那樣嚴格的使用SQL ID去替換,而是可以根據SQL特征去匹配替換。這個功能的關鍵字是sql_hints。其原理是在語法解析后,sql優化前,根據設定的規則,對語法解析樹進行修改。模擬在語法解析中,解析到了index hint。

功能:可在Server端設定指定規則,為指定sql動態添加索引hint,以干預其執行計划。
語法:

Set sql_hints=+,<schema_name>,<table_name>,<index_name>,<keyword1>~<keyword2>~<keywordn>’;
Example: 
Set sql_hints=+,test,t1,idx_id1,select id from~orderid=~status=’;

 

這個功能也有些限制就是只能針對單表select限制,特征指定(keyword)不能太簡單,db名稱不能模糊匹配。在電商MySQL場景完全夠用了。

示例設置規則:

root@(none) 01:03:17>set global sql_hints='+,xxx_xxxxxx_0000,xxxxxx_template_refer_,idx_refer,select~from~where~`xxxxxx_template_refer`.`template_id` =~`xxxxxx_template_refer`.`user_id` =';

 

示例查看規則,可以看到規則命中多少次,失敗多少次。

root@(none) 01:03:14>show sql_hints; 
+---------+-----------------------+--------------------------+-----------+---------+---------+--------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| rule_id | db | table | index | key_num | hits | errors | cmd_str | 
+---------+-----------------------+--------------------------+-----------+---------+---------+--------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ 
| 6 | xxxxxx_xxxxxx_0000 | xxxxxx_template_refer_ | idx_refer | 5 | 452076 | 0 | xxxxxx_xxxxxx_0000,xxxxxx_template_refer_,idx_refer,select~from~where~`xxxxxx_template_refer`.`template_id` =~`xxxxxx_template_refer`.`user_id` =                           | 
| 2 | xxxxxx_xxxxxx_0000 | xxxxxx_template_refer_ | idx_refer | 3 | 2181691 | 0 | xxxxxx_xxxxxx_0000,xxxxxx_template_refer_,idx_refer,`xxxxxx_template_refer`.`refer_user_id` =~`xxxxxx_template_refer`.`user_id` =~`xxxxxx_template_refer`.`template_id` = | 
+---------+-----------------------+--------------------------+-----------+---------+---------+--------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ 
2 rows in set (0.00 sec)

 

當SQL性能問題不是執行計划走偏導致的時候,上面方法就沒有用。這類往往是新發業務,業務上線前沒有嚴格測試性能。此時需要業務改SQL,但是應用修改發布時間沒那么快。所以AliSQL還有個功能就是針對SQL限流功能,即限制SQL並發數。

設置sql限流時可以針對select/update/delete 設置限流命令:

set global sql_select_filter='+,並發數,sql特征1~sql特征2';
set global sql_update_filter='+,並發數,sql特征1~sql特征2';
set global sql_delete_filter='+,並發數,sql特征1~sql特征2';

查看當前的sql限流設置命令:

show sql_filters;

舉例,限制SQL並發數為4:

root@(none) 01:23:15>set global sql_select_filter='+,4,select~from~where~`xxxxxx_template_refer`.`template_id` =~`xxxxxx_template_refer`.`user_id` ='; 
Query OK, 0 rows affected (0.00 sec) 
root@(none) 01:24:34>show sql_filters; 
+--------+---------+----------+----------+---------+-------------------------------------------------------------------------------------------------------+ 
| type | item_id | cur_conc | max_conc | key_num | key_str | 
+--------+---------+----------+----------+---------+-------------------------------------------------------------------------------------------------------+ 
| SELECT | 1 | 0 | 4 | 5 | +,4,select~from~where~`xxxxxx_template_refer`.`template_id` =~`xxxxxx_template_refer`.`user_id` = | 
+--------+---------+----------+----------+---------+-------------------------------------------------------------------------------------------------------+ 
1 row in set (0.00 sec)

 

備注:

  1. 其中的cur_conc 列顯示當前讀並發數。如果一直為0,表示規則沒有命中問題sql。

  2. sql特征不能太泛(誤命中其他sql),也不能太具體(漏掉部分sql)。

  3. 限制的並發數(自然數)不能太高(超過16意義不大),也不能太低(太低容易限制過死,導致該sql的qps嚴重低於正常值,很容易引起業務訪問量下跌),也要恰到好處。

  4. 如果特征中包含中文(不推薦),務必確保中文能正確的被mysql接收。os的session變量export.UTF-8 ,同時把終端字符集設置為 UTF-8。 詳情參見 數據庫字符亂碼問題分析

 

該限流設置還可以撤銷。首先查看sql限流規則的 item_id 值,然后通過相同的設置命令取消該項規則。

命令:

set global sql_select_filter='-,規則id';
set global sql_update_filter='-,規則id';
set global sql_delete_filter='-,規則id'

舉例:

root@(none) 01:24:34>show sql_filters; 
+--------+---------+----------+----------+---------+-------------------------------------------------------------------------------------------------------+ 
| type | item_id | cur_conc | max_conc | key_num | key_str | 
+--------+---------+----------+----------+---------+-------------------------------------------------------------------------------------------------------+ 
| SELECT | 1 | 0 | 4 | 5 | +,4,select~from~where~`xxxxxx_template_refer`.`template_id` =~`xxxxxx_template_refer`.`user_id` = | 
+--------+---------+----------+----------+---------+-------------------------------------------------------------------------------------------------------+ 
1 row in set (0.00 sec) 
root@(none) 01:24:41>set global sql_select_filter='-,1'; 
Query OK, 0 rows affected (0.00 sec) 
root@(none) 01:24:49>show sql_filters; 
Empty set (0.00 sec)

 

AliSQL的這個SQL執行計划修改和限流功能,在開源的AliSQL(地址:https://github.com/alibaba/AliSQL)里已經包含了。

OceanBase的SQL Outlines功能

OceanBase是阿里巴巴和螞蟻金服完全自主研發的通用的分布式關系型數據庫,其在SQL執行和性能診斷方面的邏輯大量參考了ORACLE的設計思路。OceanBase也支持SQL Outline功能,能夠修改在線運行的SQL執行計划。同時也支持SQL限流功能。

Outline的用法也是通過SQL Hint固定SQL的執行計划,可以調整表連接算法、使用的索引等等。
創建大綱的語法如下:

CREATE [OR REPLACE] OUTLINE outline_name ON stmt [ TO target_stmt ];

  1. 其中stmt為一個帶有HINT的DML語句。限流或固定計划,通過stmt中的HINT來區分。

  2. 如果期望對含有HINT的語句進行限流和固定計划,則需要TO target_stmt來指明相應的SQL。create outline outline_name on stmt1 to stmt2;的語意是說對stmt2創建outline,讓stmt2使用stmt1中的hint

  3. 指定OR REPLACE后,可以對已經存在執行計划或限流規則進行replace。(注:限流規則和執行計划間可以彼此替換)

  4. 在使用target_stmt時,嚴格要求stmttarget_stmt在去掉hint后完全匹配(實現中為去掉hintsignature相同)。若是在創建限流時使用target_stmt,則同時要求fix_param完全匹配。

 

舉例說明:

OceanBase (root@oceanbase)> create outline ol_1 on select /*+index(t1 c2)*/ * from t1 where c1 =1;
Query OK, 0 rows affected (0.07 sec)

OceanBase (root@oceanbase)> select * from __all_outline\G;
*************************** 1. row ***************************
gmt_create: 2016-06-08 16:09:39.058537
gmt_modified: 2016-06-08 16:09:39.058537
tenant_id: 1
outline_id: 1099511628777
database_id: 1099511627777
schema_version: 1465373379055176
name: ol_1
signature: select * from t1 where c1 =?
outline_content: /*+ BEGIN_OUTLINE_DATA INDEX(@"SEL$1" "oceanbase.t1"@"SEL$1" "c2") END_OUTLINE_DATA */
sql_text: select /*+index(t1 c2)*/ * from t1 where c1 =1
owner: root
used: 0
version: 60768-local-78cf62842644724e437542cd12c2cc1e76805ee0
compatible: 1
enabled: 1
format: 01 row in set (0.07 sec)

OceanBase (root@oceanbase)> create table t1(c1 int, c2 int, c3 int, key(c2), key(c3,c2));
Query OK, 0 rows affected (0.13 sec)

OceanBase (root@oceanbase)> CREATE OUTLINE ol_1 ON select /*+index(t1 c3)*/ c3,c2 from t1 TO select c3,c2 from t1;
Query OK, 0 rows affected (0.02 sec)
OceanBase (root@oceanbase)> select * from oceanbase.gv$outline\G
*************************** 1. row ***************************
tenant_id: 1
database_id: 1099511627777
outline_id: 1099511628777
database_name: oceanbase
outline_name: ol_1
visible_signature: select c3,c2 from t1
sql_text: select /*+index(t1 c3)*/ c3,c2 from t1
outline_target: select c3,c2 from t1
outline_sql: select /*+ BEGIN_OUTLINE_DATA INDEX(@"SEL$1" "oceanbase.t1"@"SEL$1" "c3") END_OUTLINE_DATA*/ c3,c2 from t1
1 row in set (0.00 sec)

 

創建完ol_1后,所有**select from t1 where c1 =?語句都會按照/+ BEGIN_OUTLINE_DATA INDEX(@"SEL$1""oceanbase.t1"@"SEL$1" "c2") END_OUTLINE_DATA */固定的計划執行。其中?可以是任意值。

這里着重介紹下遷移outline過程中會用到的oceanbase.gv$outline視圖中的列:

  1. database_name: outline所屬的database的名字

  2. outline_name: outline自己的名字

  3. outline_sql: outline_sql是將原始查詢和固定計划的hint拼接在一起的字符串。用於還原outline 創建語句,上面這個例子中,就是將select c3,c2 from t1 和 固定計划的 /+ BEGIN_OUTLINE_DATA INDEX(@"SEL$1" "c3") END_OUTLINE_DATA/拼接而成的,

  4. outline_target: outline_target是使用CREATE OUTLINE ol_name ON on_stmt TO to_stmt這種語法創建outline時的to_stmt, 用於支持在帶有hint的DML語句上創建outline; 如果使用CREATE OUTLINE ol_name ON on_stmt ;語句創建outline,則outline_target內容為空。

 

OceanBase Outline更多的時候是用在數據庫Failover、分布式數據庫集群擴容(增加實例和分庫等)等場景中,將正常數據庫的SQL執行計划遷移到新的租戶中,可以確保SQL性能不會發生意外的變化。

create outline時,如果指定MAX_CONCURRENT(NUM),將會對當前SQL進行限流。指定限流規則后會控制一個observer中可以並發執行的限流SQL個數。並發度控制的是限流SQL對應的physical_plan在單一observer可以並發執行的個數;也就是說對於整個集群,並發執行的限流SQL個數大於HINT中指定的並發度。

示例:

OceanBase (root@oceanbase)> create outline ol_1 on select /*+max_concurrent(1)*/ * from t2 where c1 = 1 and c2 = ?;
Query OK, 0 rows affected (0.04 sec)

 

創建完ol_1后,形如 select * from t2 where c1 = 1 and c2 = ? 的sql在單台observer中可執行的並發度為1;
c2 = ? 表明問號的位置可以被任意的const值代替,例如下面的sql都會被限流:

select * from t2 where c1 = 1 and c2 = 1;
select * from t2 where c1 = 1 and c2 = 2;
select * from t2 where c1 = 1 and c2 = "2";
select * from t2 where c1 = 1 and c2 = true;

 

注意:

限流和固定計划的使用方法類似,均是通過指定HINT的形式來實現;限流的HINT為MAX_CONCURRENT(NUM),其中NUM為並發度。當被限流的SQL達到最大並發個數后,再有新的限流SQL執行時會報,server會返回 SQL reach max concurrent num 錯誤。

當前限流和固定計划功能均通過create outline語句來實現,為了確保語意的正確性和清晰性,我們規定create outline中限流HINT和其他HINT不能同時存在。同時存在時只執行限流規則,不會固定執行計划。

高級用法:

  1. 同一個outline_name可以對應多個具有相同signature的限流規則。

  2. 當同一條SQL可以匹配多個限流規則時,會選擇並發度最小的進行限流。

OceanBase (root@oceanbase)> create outline ol_1 on select /*+max_concurrent(1)*/ * from t1 where c1 =1 and c2 = 1;
Query OK, 0 rows affected (0.07 sec)

OceanBase (root@oceanbase)> alter outline ol_1 add select /*+max_concurrent(1)*/ * from t1 where c1 =1 and c2 = ?;
Query OK, 0 rows affected (0.09 sec)

OceanBase (root@oceanbase)> alter outline ol_1 add select /*+max_concurrent(10)*/ * from t1 where c1 =? and c2 = 1;
Query OK, 0 rows affected (0.04 sec)

OceanBase支持的Hints

  • 語句級別的hint

FROZEN_VERSION
QUERY_TIMEOUT
READ_CONSISTENCY
LOG_LEVEL
QB_NAME
ACTIVATE_BURIED_POINT
TRACE_LOG
MAX_CONCURRENT
  • 計划相關的hint

FULL
INDEX
LEADING
USE_MERGE
USE_HASH
USE_NL
ORDERED
NO_REWRITE
  • 存儲outline的schema信息的系統表

oceanbase.__all_outline
oceanbase.__all_outline_history
  • 固定計划相關虛擬表和試圖

展示的均是當前租戶的信息:

oceanbase.__tenant_virtual_outline 用於outline遷移使用的虛擬表,同時顯示固定計划的信息。
oceanbase.gv$outline 在__tenant_virutal_outline基礎上創建的視圖。
information_schema.dba_outlines 在__all_table上創建的視圖。
  • 限流相關虛擬表和試圖

下表展示的均是當前租戶的信息:

oceanbase.__tenant_virtual_concurrent_limit_sql: 展示限流信息
oceanbase.gv$concurrent_limit_sql: 在__tenant_virtual_concurrent_limit_sql上創建的視圖。

 

參考

 

總結

阿里數據庫(AliSQL和OceanBase)都支持在運行中干預SQL的執行計划,以及對問題SQL並發進行限流,以快速將數據庫和應用從某個問題SQL的影響中恢復出來。

推薦關注

 更多分享,推薦關注公眾號:obpilot


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM