Mysql之索引與慢查詢優化

本文轉載自查看原文 2017-10-31 17:20 3505 數據庫

索引的數據結構

b+shu

如上圖，是一顆b+樹，關於b+樹的定義可以參見B+樹，這里只說一些重點，淺藍色的塊我們稱之為一個磁盤塊，可以看到每個磁盤塊包含幾個數據項（深藍色所示）和指針（黃色所示），如磁盤塊1包含數據項17和35，包含指針P1、P2、P3，P1表示小於17的磁盤塊，P2表示在17和35之間的磁盤塊，P3表示大於35的磁盤塊。真實的數據存在於葉子節點即3、5、9、10、13、15、28、29、36、60、75、79、90、99。非葉子節點只不存儲真實的數據，只存儲指引搜索方向的數據項，如17、35並不真實存在於數據表中。

###b+樹的查找過程
如圖所示，如果要查找數據項29，那么首先會把磁盤塊1由磁盤加載到內存，此時發生一次IO，在內存中用二分查找確定29在17和35之間，鎖定磁盤塊1的P2指針，內存時間因為非常短（相比磁盤的IO）可以忽略不計，通過磁盤塊1的P2指針的磁盤地址把磁盤塊3由磁盤加載到內存，發生第二次IO，29在26和30之間，鎖定磁盤塊3的P2指針，通過指針加載磁盤塊8到內存，發生第三次IO，同時內存中做二分查找找到29，結束查詢，總計三次IO。真實的情況是，3層的b+樹可以表示上百萬的數據，如果上百萬的數據查找只需要三次IO，性能提高將是巨大的，如果沒有索引，每個數據項都要發生一次IO，那么總共需要百萬次的IO，顯然成本非常非常高。

###b+樹性質
1.索引字段要盡量的小：通過上面的分析，我們知道IO次數取決於b+數的高度h，假設當前數據表的數據為N，每個磁盤塊的數據項的數量是m，則有h=㏒(m+1)N，當數據量N一定的情況下，m越大，h越小；而m = 磁盤塊的大小 / 數據項的大小，磁盤塊的大小也就是一個數據頁的大小，是固定的，如果數據項占的空間越小，數據項的數量越多，樹的高度越低。這就是為什么每個數據項，即索引字段要盡量的小，比如int占4字節，要比bigint8字節少一半。這也是為什么b+樹要求把真實的數據放到葉子節點而不是內層節點，一旦放到內層節點，磁盤塊的數據項會大幅度下降，導致樹增高。當數據項等於1時將會退化成線性表。
2.索引的最左匹配特性：當b+樹的數據項是復合的數據結構，比如(name,age,sex)的時候，b+數是按照從左到右的順序來建立搜索樹的，比如當(張三,20,F)這樣的數據來檢索的時候，b+樹會優先比較name來確定下一步的所搜方向，如果name相同再依次比較age和sex，最后得到檢索的數據；但當(20,F)這樣的沒有name的數據來的時候，b+樹就不知道下一步該查哪個節點，因為建立搜索樹的時候name就是第一個比較因子，必須要先根據name來搜索才能知道下一步去哪里查詢。比如當(張三,F)這樣的數據來檢索時，b+樹可以用name來指定搜索方向，但下一個字段age的缺失，所以只能把名字等於張三的數據都找到，然后再匹配性別是F的數據了，這個是非常重要的性質，即索引的最左匹配特性。

Mysql索引管理

功能：

#1. 索引的功能就是加速查找
#2. mysql中的primary key，unique，聯合唯一也都是索引，這些索引除了加速查找以外，還有約束的功能

常用索引：

普通索引INDEX：加速查找

唯一索引：
    -主鍵索引PRIMARY KEY：加速查找+約束（不為空、不能重復）
    -唯一索引UNIQUE:加速查找+約束（不能重復）

聯合索引：
    -PRIMARY KEY(id,name):聯合主鍵索引
    -UNIQUE(id,name):聯合唯一索引
    -INDEX(id,name):聯合普通索引

舉個例子來說，比如你在為某商場做一個會員卡的系統。

這個系統有一個會員表
有下列字段：
會員編號 INT
會員姓名 VARCHAR(10)
會員身份證號碼 VARCHAR(18)
會員電話 VARCHAR(10)
會員住址 VARCHAR(50)
會員備注信息 TEXT

那么這個 會員編號，作為主鍵，使用 PRIMARY
會員姓名 如果要建索引的話，那么就是普通的 INDEX
會員身份證號碼 如果要建索引的話，那么可以選擇 UNIQUE （唯一的，不允許重復）

#除此之外還有全文索引，即FULLTEXT
會員備注信息 ， 如果需要建索引的話，可以選擇全文搜索。
用於搜索很長一篇文章的時候，效果最好。
用在比較短的文本，如果就一兩行字的，普通的 INDEX 也可以。
但其實對於全文搜索，我們並不會使用MySQL自帶的該索引，而是會選擇第三方軟件如Sphinx，專門來做全文搜索。

#其他的如空間索引SPATIAL，了解即可，幾乎不用

索引應用場景

索引的兩大類型：

#我們可以在創建上述索引的時候，為其指定索引類型，分兩類
hash類型的索引：查詢單條快，范圍查詢慢
btree類型的索引：b+樹，層數越多，數據量指數級增長（我們就用它，因為innodb默認支持它）

#不同的存儲引擎支持的索引類型也不一樣
InnoDB 支持事務，支持行級別鎖定，支持 B-tree、Full-text 等索引，不支持 Hash 索引；
MyISAM 不支持事務，支持表級別鎖定，支持 B-tree、Full-text 等索引，不支持 Hash 索引；
Memory 不支持事務，支持表級別鎖定，支持 B-tree、Hash 等索引，不支持 Full-text 索引；
NDB 支持事務，支持行級別鎖定，支持 Hash 索引，不支持 B-tree、Full-text 等索引；
Archive 不支持事務，支持表級別鎖定，不支持 B-tree、Hash、Full-text 等索引；

創建與刪除：

#方法一：創建表時
    　　CREATE TABLE 表名 (
                字段名1  數據類型 [完整性約束條件…],
                字段名2  數據類型 [完整性約束條件…],
                [UNIQUE | FULLTEXT | SPATIAL ]   INDEX | KEY
                [索引名]  (字段名[(長度)]  [ASC |DESC]) 
                );


#方法二：CREATE在已存在的表上創建索引
        CREATE  [UNIQUE | FULLTEXT | SPATIAL ]  INDEX  索引名 
                     ON 表名 (字段名[(長度)]  [ASC |DESC]) ;


#方法三：ALTER TABLE在已存在的表上創建索引
        ALTER TABLE 表名 ADD  [UNIQUE | FULLTEXT | SPATIAL ] INDEX
                             索引名 (字段名[(長度)]  [ASC |DESC]) ;
                             
#刪除索引：DROP INDEX 索引名 ON 表名字;

#方式一
create table t1(
    id int,
    name char,
    age int,
    sex enum('male','female'),
    unique key uni_id(id),
    index ix_name(name) #index沒有key
);


#方式二
create index ix_age on t1(age);

#方式三
alter table t1 add index ix_sex(sex);

#查看
mysql> show create table t1;
| t1    | CREATE TABLE `t1` (
  `id` int(11) DEFAULT NULL,
  `name` char(1) DEFAULT NULL,
  `age` int(11) DEFAULT NULL,
  `sex` enum('male','female') DEFAULT NULL,
  UNIQUE KEY `uni_id` (`id`),
  KEY `ix_name` (`name`),
  KEY `ix_age` (`age`),
  KEY `ix_sex` (`sex`)
) ENGINE=InnoDB DEFAULT CHARSET=latin1

例子

測試索引：

#1. 准備表
create table s1(
id int,
name varchar(20),
gender char(6),
email varchar(50)
);

#2. 創建存儲過程，實現批量插入記錄
delimiter $$ #聲明存儲過程的結束符號為$$
create procedure auto_insert1()
BEGIN
    declare i int default 1;
    while(i<3000000)do
        insert into s1 values(i,'egon','male',concat('egon',i,'@oldboy'));
        set i=i+1;
    end while;
END$$ #$$結束
delimiter ; #重新聲明分號為結束符號

#3. 查看存儲過程
show create procedure auto_insert1\G 

#4. 調用存儲過程
call auto_insert1();

准備工作

# 1. 在沒有索引的前提下測試速度
#無索引：mysql根本就不知道到底是否存在id等於333333333的記錄，只能把數據表從頭到尾掃描一遍，此時有多少個磁盤塊就需要進行多少IO操作，所以查詢速度很慢
mysql> select * from s1 where id=333333333;
Empty set (1.39 sec)


#  2. 建立索引
# 在表中已經存在大量數據的情況下建立索引會非常慢
mysql> create index idx_id on s1(id);
Query OK, 0 rows affected (6.54 sec)
Records: 0  Duplicates: 0  Warnings: 0

# 3. 查詢
# 速度變得很快
mysql> select * from s1 where id=333333333;
Empty set (0.00 sec)

# PS：

1. mysql先去索引表里根據b+樹的搜索原理很快搜索到id等於333333333的記錄不存在，IO大大降低，因而速度明顯提升

2. 我們可以去mysql的data目錄下找到該表，可以看到占用的硬盤空間多了

3. 注意在沒有為其他字段加索引的情況下， 速度很慢 
mysql> select * from s1 where email='xxxx';
Empty set (1.32 sec)

# 總結

#1. 一定是為搜索條件的字段創建索引，比如select * from s1 where id = 333;就需要為id加上索引

#2. 在表中已經有大量數據的情況下，建索引會很慢，且占用硬盤空間，建完后查詢速度加快
比如create index idx on s1(id);會掃描表中所有的數據，然后以id為數據項，創建索引結構，存放於硬盤的表中。
建完以后，再查詢就會很快了。

#3. 需要注意的是：innodb表的索引會存放於s1.ibd文件中，而myisam表的索引則會有單獨的索引文件table1.MYI

MySAM索引文件和數據文件是分離的，索引文件僅保存數據記錄的地址。而在innodb中，表數據文件本身就是按照B+Tree（BTree即Balance True）組織的一個索引結構，這棵樹的葉節點data域保存了完整的數據記錄。這個索引的key是數據表的主鍵，因此innodb表數據文件本身就是主索引。
因為inndob的數據文件要按照主鍵聚集，所以innodb要求表必須要有主鍵（Myisam可以沒有），如果沒有顯式定義，則mysql系統會自動選擇一個可以唯一標識數據記錄的列作為主鍵，如果不存在這種列，則mysql會自動為innodb表生成一個隱含字段作為主鍵，這字段的長度為6個字節，類型為長整型.

正確使用索引：

索引未命中

並不是說我們創建了索引就一定會加快查詢速度，若想利用索引達到預想的提高查詢速度的效果，我們在添加索引時，必須遵循以下問題

范圍問題，或者說條件不明確，條件中出現這些符號或關鍵字：>、>=、<、<=、!= 、between...and...、like、

# =  明確指出1000這個id 在索引樹上很快能找到
mysql> select count(*) from s1 where id=1000;
+----------+
| count(*) |
+----------+
|        1 |
+----------+
1 row in set (0.00 sec)

# > 指定的大於1000的id有很多，范圍很大，所以速度明顯下降
mysql> select count(*) from s1 where id>1000;
+----------+
| count(*) |
+----------+
|  2998999 |
+----------+
1 row in set (0.93 sec)


# < 范圍很小， 速度就很快
mysql> select count(*) from s1 where id<1000;
+----------+
| count(*) |
+----------+
|      999 |
+----------+
1 row in set (0.00 sec)

> 與 <

# 不等於是一個很大的范圍，所以速度很慢

mysql> select count(*) from s1 where id!=1000;
+----------+
| count(*) |
+----------+
|  2999998 |
+----------+
1 row in set (0.93 sec)

！=（不等於）

# 取決於范圍大小


# 范圍大 ，慢
mysql> select count(*) from s1 where id between 1000 and 3000000;
+----------+
| count(*) |
+----------+
|  2999000 |
+----------+
1 row in set (0.98 sec)

# 范圍小， 快

ysql> select count(*) from s1 where id between 1000 and 2000;
+----------+
| count(*) |
+----------+
|     1001 |
+----------+
1 row in set (0.00 sec)

between... and...

# %在后面速度很快
mysql> select count(*) from s1 where email like 'xxxx%';
+----------+
| count(*) |
+----------+
|        0 |
+----------+
1 row in set (0.00 sec)

# %在前面 速度很慢
mysql> select count(*) from s1 where email like '%xxxx';
+----------+
| count(*) |
+----------+
|        0 |
+----------+
1 row in set (1.25 sec)


# 不加百分號，值也不匹配， 很快
mysql> select count(*) from s1 where email like 'xxxx';
+----------+
| count(*) |
+----------+
|        0 |
+----------+
1 row in set (0.00 sec)

盡量選擇區分度高的列作為索引,區分度的公式是count(distinct col)/count(*)，表示字段不重復的比例，比例越大我們掃描的記錄數越少，唯一鍵的區分度是1，而一些狀態、性別字段可能在大數據面前區分度就是0，那可能有人會問，這個比例有什么經驗值嗎？使用場景不同，這個值也很難確定，一般需要join的字段我們都要求是0.1以上，即平均1條掃描10條記錄

# name已經加上索引，速度依然很慢
mysql> select count(*) from s1 where name = 'egon';
+----------+
| count(*) |
+----------+
|  2999999 |
+----------+
1 row in set (1.48 sec)

# 原因

我們編寫存儲過程為表s1批量添加記錄，name字段的值均為egon，也就是說name這個字段的區分度很低（gender字段也是一樣的，我們稍后再搭理它）

回憶b+樹的結構，查詢的速度與樹的高度成反比，要想將樹的高低控制的很低，需要保證：在某一層內數據項均是按照從左到右，從小到大的順序依次排開，即左1<左2<左3<...

而對於區分度低的字段，無法找到大小關系，因為值都是相等的，毫無疑問，還想要用b+樹存放這些等值的數據，只能增加樹的高度，字段的區分度越低，則樹的高度越高。極端的情況，索引字段的值都一樣，那么b+樹幾乎成了一根棍。本例中就是這種極端的情況，name字段所有的值均為'egon'

#現在我們得出一個結論：為區分度低的字段建立索引，索引樹的高度會很高，然而這具體會帶來什么影響呢？？？

#1：如果條件是name='xxxx',那么肯定是可以第一時間判斷出'xxxx'是不在索引樹中的（因為樹中所有的值均為'egon’），所以查詢速度很快

#2：如果條件正好是name='egon',查詢時，我們永遠無法從樹的某個位置得到一個明確的范圍，只能往下找，往下找，往下找。。。這與全表掃描的IO次數沒有多大區別，所以速度很慢

View Code

=和in可以亂序，比如a = 1 and b = 2 and c = 3 建立(a,b,c)索引可以任意順序，mysql的查詢優化器會幫你優化成索引可以識別的形式

索引列不能參與計算，保持列“干凈”，比如from_unixtime(create_time) = ’2014-05-29’就不能使用到索引，原因很簡單，b+樹中存的都是數據表中的字段值，但進行檢索時，需要把所有元素都應用函數才能比較，顯然成本太大。所以語句應該寫成create_time = unix_timestamp(’2014-05-29’)

andy/or

#注意：
條件1 and 條件2:查詢原理是：首先條件1與條件2都成立的前提下，才算匹配成功一條記錄；其次mysql會按先優先判斷索引字段的條件,如果按照該條件為真，但鎖定的范圍很小，或者干脆為假，那我們即便是沒有為其他條件的字段添加索引，最終的結果仍然很快

#例如：
若條件1的字段有索引，而條件2的字段沒有索引，那么如果在按照條件1查出的結果很少的情況下，即便我們沒有為條件2創建索引，最終的查詢速度依然很快

若條件1的字段沒有索引，而條件2的字段有索引，那么如果在按照條件2查出的結果很少的情況下，即便我們沒有為條件1創建索引，最終的查詢速度依然很快

# 在左邊條件成立但是索引字段的區分度低的情況下（name與gender均屬於這種情況），會依次往右找到一個區分度高的索引字段，加速查詢

```
mysql> select count(*) from s1 where id = 100 and name = 'egon';
+----------+
| count(*) |
+----------+
|        1 |
+----------+
1 row in set (0.00 sec)
```
例子
最左前綴匹配原則，非常重要的原則，對於組合索引mysql會一直向右匹配直到遇到范圍查詢(>、<、between、like)就停止匹配(指的是范圍大了，有索引速度也慢)，比如a = 1 and b = 2 and c > 3 and d = 4 如果建立(a,b,c,d)順序的索引，d是用不到索引的，如果建立(a,b,d,c)的索引則都可以用到，a,b,d的順序可以任意調整。

# 建立聯合索引，將區分度高的放在后面依然很慢
mysql> create index xxx on s1(id, name, gender, email);
Query OK, 0 rows affected (54.04 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> select count(*) from s1 where name='egon' and gender='male' and id>333 and email='xxx';
+----------+
| count(*) |
+----------+
|        0 |
+----------+
1 row in set (1.80 sec)

# 改變聯合索引順序
mysql> create index xxx on s1(name, gender, email, id);
Query OK, 0 rows affected (44.14 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> select count(*) from s1 where name='egon' and gender='male' and id>333 and email='xxx';
+----------+
| count(*) |
+----------+
|        0 |
+----------+
1 row in set (0.00 sec)  # 很快

View Code

- 使用函數
    select * from tb1 where reverse(email) = 'egon';
            
- 類型不一致
    如果列是字符串類型，傳入條件是必須用引號引起來，不然...
    select * from tb1 where email = 999;
    
#排序條件為索引，則select字段必須也是索引字段，否則無法命中
- order by
    select name from s1 order by email desc;
    當根據索引排序時候，select查詢的字段如果不是索引，則速度仍然很慢
    select email from s1 order by email desc;
    特別的：如果對主鍵排序，則還是速度很快：
        select * from tb1 order by nid desc;
 
- 組合索引最左前綴
    如果組合索引為：(name,email)
    name and email       -- 命中索引
    name                 -- 命中索引
    email                -- 未命中索引


- count(1)或count(列)代替count(*)在mysql中沒有差別了

- create index xxxx  on tb(title(19)) #text類型，必須制定長度

其他情況

注意事項：

- 避免使用select *
- count(1)或count(列) 代替 count(*)
- 創建表時盡量時 char 代替 varchar
- 表的字段順序固定長度的字段優先
- 組合索引代替多個單列索引（經常使用多個條件查詢時）
- 盡量使用短索引
- 使用連接（JOIN）來代替子查詢(Sub-Queries)
- 連表時注意條件類型需一致
- 索引散列值（重復少）不適合建索引，例：性別不適合

覆蓋索引與索引合並

#覆蓋索引：
    - 所有字段（條件的，查詢結果的等）都是索引字段
    http://blog.itpub.net/22664653/viewspace-774667/

#分析
select age from s1 where id=123 and name = 'egon'; #id字段有索引，但是name字段沒有索引
該sql命中了索引，但未覆蓋全部。
利用id=123到索引的數據結構中定位到了id字段，但是仍要判斷name字段，但是name字段沒有索引，而且查詢結果的字段age也沒有索引
最牛逼的情況是，索引字段覆蓋了所有，那全程通過索引來加速查詢以及獲取結果就ok了

#索引合並：把多個單列索引合並使用

#分析：
組合索引能做到的事情，我們都可以用索引合並去解決，比如
create index ne on s1(name,email);#組合索引
我們完全可以單獨為name和email創建索引，然后按照where name='xxx' and email='xxx'使用 #索引合並

組合索引可以命中：
select * from s1 where name='egon' ;
select * from s1 where name='egon' and email='adf';

索引合並可以命中：
select * from s1 where name='egon' ;
select * from s1 where email='adf';
select * from s1 where name='egon' and email='adf';

乍一看好像索引合並更好了：可以命中更多的情況，但其實要分情況去看，如果是name='egon' and email='adf',那么組合索引的效率要高於索引合並，如果是單條件查，那么還是用索引合並比較合理

查詢優化神器- explain

具體用法和字段含義可以參考官網explain-output，這里需要強調rows是核心指標，絕大部分rows小的語句執行一定很快（有例外，下面會講到）。所以優化語句基本上都是在優化rows。

執行計划：讓mysql預估執行操作(一般正確)
    all < index < range < index_merge < ref_or_null < ref < eq_ref < system/const
    id,email
    
    慢：
        select * from userinfo3 where name='alex'
        
        explain select * from userinfo3 where name='alex'
        type: ALL(全表掃描)
            select * from userinfo3 limit 1;
    快：
        select * from userinfo3 where email='alex'
        type: const(走索引)

慢查詢優化的基本步驟

0.先運行看看是否真的很慢，注意設置SQL_NO_CACHE
1.where條件單表查，鎖定最小返回記錄表。這句話的意思是把查詢語句的where都應用到表中返回的記錄數最小的表開始查起，單表每個字段分別查詢，看哪個字段的區分度最高
2.explain查看執行計划，是否與1預期一致（從鎖定記錄較少的表開始查詢）
3.order by limit 形式的sql語句讓排序的表優先查
4.了解業務方使用場景
5.加索引時參照建索引的幾大原則
6.觀察結果，不符合預期繼續從0分析

慢日志管理

 慢日志
            - 執行時間 > 10
            - 未命中索引
            - 日志文件路徑
            
        配置：
            - 內存
                show variables like '%query%';
                show variables like '%queries%';
                set global 變量名 = 值
            - 配置文件
                mysqld --defaults-file='E:\wupeiqi\mysql-5.7.16-winx64\mysql-5.7.16-winx64\my-default.ini'
                
                my.conf內容：
                    slow_query_log = ON
                    slow_query_log_file = D:/....
                    
                注意：修改配置文件之后，需要重啟服務

MySQL日志管理
========================================================
錯誤日志: 記錄 MySQL 服務器啟動、關閉及運行錯誤等信息
二進制日志: 又稱binlog日志，以二進制文件的方式記錄數據庫中除 SELECT 以外的操作
查詢日志: 記錄查詢的信息
慢查詢日志: 記錄執行時間超過指定時間的操作
中繼日志： 備庫將主庫的二進制日志復制到自己的中繼日志中，從而在本地進行重放
通用日志： 審計哪個賬號、在哪個時段、做了哪些事件
事務日志或稱redo日志： 記錄Innodb事務相關的如事務執行時間、檢查點等
========================================================
一、bin-log
1. 啟用
# vim /etc/my.cnf
[mysqld]
log-bin[=dir\[filename]]
# service mysqld restart
2. 暫停
//僅當前會話
SET SQL_LOG_BIN=0;
SET SQL_LOG_BIN=1;
3. 查看
查看全部：
# mysqlbinlog mysql.000002
按時間：
# mysqlbinlog mysql.000002 --start-datetime="2012-12-05 10:02:56"
# mysqlbinlog mysql.000002 --stop-datetime="2012-12-05 11:02:54"
# mysqlbinlog mysql.000002 --start-datetime="2012-12-05 10:02:56" --stop-datetime="2012-12-05 11:02:54" 

按字節數：
# mysqlbinlog mysql.000002 --start-position=260
# mysqlbinlog mysql.000002 --stop-position=260
# mysqlbinlog mysql.000002 --start-position=260 --stop-position=930
4. 截斷bin-log（產生新的bin-log文件）
a. 重啟mysql服務器
b. # mysql -uroot -p123 -e 'flush logs'
5. 刪除bin-log文件
# mysql -uroot -p123 -e 'reset master' 


二、查詢日志
啟用通用查詢日志
# vim /etc/my.cnf
[mysqld]
log[=dir\[filename]]
# service mysqld restart

三、慢查詢日志
啟用慢查詢日志
# vim /etc/my.cnf
[mysqld]
log-slow-queries[=dir\[filename]]
long_query_time=n
# service mysqld restart
MySQL 5.6:
slow-query-log=1
slow-query-log-file=slow.log
long_query_time=3
查看慢查詢日志
測試:BENCHMARK(count,expr)
SELECT BENCHMARK(50000000,2*3);

日志管理

mysql日志管理

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 mysql之索引原理與慢查詢優化關於mysql的索引原理與慢查詢優化 MySQL索引原理及慢查詢優化 MySQL之索引原理與慢查詢優化 MySQL 之索引原理與慢查詢優化索引與慢查詢優化《MySQL慢查詢優化》之SQL語句及索引優化 MySQL索引原理及慢查詢優化（轉） MySQL 慢查詢優化 MySQL索引和查詢優化