mysql數據庫從刪庫到跑路之mysq索引

本文轉載自查看原文 2017-09-12 19:45 1105 mysql數據庫從刪庫到跑路之mysql基礎

一介紹

為何要有索引?

一般的應用系統，讀寫比例在10:1左右，而且插入操作和一般的更新操作很少出現性能問題，在生產環境中，我們遇到最多的，也是最容易出問題的，還是一些復雜的查詢操作，因此對查詢語句的優化顯然是重中之重。說起加速查詢，就不得不提到索引了。

什么是索引？

索引在MySQL中也叫做“鍵”，是存儲引擎用於快速找到記錄的一種數據結構。索引對於良好的性能
非常關鍵，尤其是當表中的數據量越來越大時，索引對於性能的影響愈發重要。
索引優化應該是對查詢性能優化最有效的手段了。索引能夠輕易將查詢性能提高好幾個數量級。
索引相當於字典的音序表，如果要查某個字，如果不使用音序表，則需要從幾百頁中逐頁去查。

樹形結構

                      30

        10                          40

   5         15               35          66

1    6    11   19          21   39     55    100

二索引的原理

一索引原理

索引的目的在於提高查詢效率，與我們查閱圖書所用的目錄是一個道理：先定位到章，然后定位到該章下的一個小節，然后找到頁數。相似的例子還有：查字典，查火車車次，飛機航班等

本質都是：通過不斷地縮小想要獲取數據的范圍來篩選出最終想要的結果，同時把隨機的事件變成順序的事件，也就是說，有了這種索引機制，我們可以總是用同一種查找方式來鎖定數據。

數據庫也是一樣，但顯然要復雜的多，因為不僅面臨着等值查詢，還有范圍查詢(>、<、between、in)、模糊查詢(like)、並集查詢(or)等等。數據庫應該選擇怎么樣的方式來應對所有的問題呢？我們回想字典的例子，能不能把數據分成段，然后分段查詢呢？最簡單的如果1000條數據，1到100分成第一段，101到200分成第二段，201到300分成第三段......這樣查第250條數據，只要找第三段就可以了，一下子去除了90%的無效數據。但如果是1千萬的記錄呢，分成幾段比較好？稍有算法基礎的同學會想到搜索樹，其平均復雜度是lgN，具有不錯的查詢性能。但這里我們忽略了一個關鍵的問題，復雜度模型是基於每次相同的操作成本來考慮的。而數據庫實現比較復雜，一方面數據是保存在磁盤上的，另外一方面為了提高性能，每次又可以把部分數據讀入內存來計算，因為我們知道訪問磁盤的成本大概是訪問內存的十萬倍左右，所以簡單的搜索樹難以滿足復雜的應用場景。

二磁盤IO與預讀

前面提到了訪問磁盤，那么這里先簡單介紹一下磁盤IO和預讀，磁盤讀取數據靠的是機械運動，每次讀取數據花費的時間可以分為尋道時間、旋轉延遲、傳輸時間三個部分，尋道時間指的是磁臂移動到指定磁道所需要的時間，主流磁盤一般在5ms以下；旋轉延遲就是我們經常聽說的磁盤轉速，比如一個磁盤7200轉，表示每分鍾能轉7200次，也就是說1秒鍾能轉120次，旋轉延遲就是1/120/2 = 4.17ms；傳輸時間指的是從磁盤讀出或將數據寫入磁盤的時間，一般在零點幾毫秒，相對於前兩個時間可以忽略不計。那么訪問一次磁盤的時間，即一次磁盤IO的時間約等於5+4.17 = 9ms左右，聽起來還挺不錯的，但要知道一台500 -MIPS（Million Instructions Per Second）的機器每秒可以執行5億條指令，因為指令依靠的是電的性質，換句話說執行一次IO的時間可以執行約450萬條指令，數據庫動輒十萬百萬乃至千萬級數據，每次9毫秒的時間，顯然是個災難。下圖是計算機硬件延遲的對比圖，供大家參考：

考慮到磁盤IO是非常高昂的操作，計算機操作系統做了一些優化，當一次IO時，不光把當前磁盤地址的數據，而是把相鄰的數據也都讀取到內存緩沖區內，因為局部預讀性原理告訴我們，當計算機訪問一個地址的數據的時候，與其相鄰的數據也會很快被訪問到。每一次IO讀取的數據我們稱之為一頁(page)。具體一頁有多大數據跟操作系統有關，一般為4k或8k，也就是我們讀取一頁內的數據時候，實際上才發生了一次IO，這個理論對於索引的數據結構設計非常有幫助。

三索引的數據結構

前面講了索引的基本原理，數據庫的復雜性，又講了操作系統的相關知識，目的就是讓大家了解，任何一種數據結構都不是憑空產生的，一定會有它的背景和使用場景，我們現在總結一下，我們需要這種數據結構能夠做些什么，其實很簡單，那就是：每次查找數據時把磁盤IO次數控制在一個很小的數量級，最好是常數數量級。那么我們就想到如果一個高度可控的多路搜索樹是否能滿足需求呢？就這樣，b+樹應運而生。

如上圖，是一顆b+樹，關於b+樹的定義可以參見B+樹，這里只說一些重點，淺藍色的塊我們稱之為一個磁盤塊，可以看到每個磁盤塊包含幾個數據項（深藍色所示）和指針（黃色所示），如磁盤塊1包含數據項17和35，包含指針P1、P2、P3，P1表示小於17的磁盤塊，P2表示在17和35之間的磁盤塊，P3表示大於35的磁盤塊。真實的數據存在於葉子節點即3、5、9、10、13、15、28、29、36、60、75、79、90、99。非葉子節點只不存儲真實的數據，只存儲指引搜索方向的數據項，如17、35並不真實存在於數據表中。

###b+樹的查找過程
如圖所示，如果要查找數據項29，那么首先會把磁盤塊1由磁盤加載到內存，此時發生一次IO，在內存中用二分查找確定29在17和35之間，鎖定磁盤塊1的P2指針，內存時間因為非常短（相比磁盤的IO）可以忽略不計，通過磁盤塊1的P2指針的磁盤地址把磁盤塊3由磁盤加載到內存，發生第二次IO，29在26和30之間，鎖定磁盤塊3的P2指針，通過指針加載磁盤塊8到內存，發生第三次IO，同時內存中做二分查找找到29，結束查詢，總計三次IO。真實的情況是，3層的b+樹可以表示上百萬的數據，如果上百萬的數據查找只需要三次IO，性能提高將是巨大的，如果沒有索引，每個數據項都要發生一次IO，那么總共需要百萬次的IO，顯然成本非常非常高。

###b+樹性質
1.索引字段要盡量的小：通過上面的分析，我們知道IO次數取決於b+數的高度h，假設當前數據表的數據為N，每個磁盤塊的數據項的數量是m，則有h=㏒(m+1)N，當數據量N一定的情況下，m越大，h越小；而m = 磁盤塊的大小 / 數據項的大小，磁盤塊的大小也就是一個數據頁的大小，是固定的，如果數據項占的空間越小，數據項的數量越多，樹的高度越低。這就是為什么每個數據項，即索引字段要盡量的小，比如int占4字節，要比bigint8字節少一半。這也是為什么b+樹要求把真實的數據放到葉子節點而不是內層節點，一旦放到內層節點，磁盤塊的數據項會大幅度下降，導致樹增高。當數據項等於1時將會退化成線性表。
2.索引的最左匹配特性：當b+樹的數據項是復合的數據結構，比如(name,age,sex)的時候，b+數是按照從左到右的順序來建立搜索樹的，比如當(張三,20,F)這樣的數據來檢索的時候，b+樹會優先比較name來確定下一步的所搜方向，如果name相同再依次比較age和sex，最后得到檢索的數據；但當(20,F)這樣的沒有name的數據來的時候，b+樹就不知道下一步該查哪個節點，因為建立搜索樹的時候name就是第一個比較因子，必須要先根據name來搜索才能知道下一步去哪里查詢。比如當(張三,F)這樣的數據來檢索時，b+樹可以用name來指定搜索方向，但下一個字段age的缺失，所以只能把名字等於張三的數據都找到，然后再匹配性別是F的數據了，這個是非常重要的性質，即索引的最左匹配特性。

三 MySQL索引管理

一功能

#1. 索引的功能就是加速查找
#2. mysql中的primary key，unique，聯合唯一也都是索引，這些索引除了加速查找以外，還有約束的功能

二 MySQL的索引分類

普通索引INDEX：加速查找

唯一索引：
    -主鍵索引PRIMARY KEY：加速查找+約束（不為空、不能重復）
    -唯一索引UNIQUE:加速查找+約束（不能重復）

聯合索引：
    -PRIMARY KEY(id,name):聯合主鍵索引
    -UNIQUE(id,name):聯合唯一索引
    -INDEX(id,name):聯合普通索引

舉個例子來說，比如你在為某商場做一個會員卡的系統。

這個系統有一個會員表
有下列字段：
會員編號 INT
會員姓名 VARCHAR(10)
會員身份證號碼 VARCHAR(18)
會員電話 VARCHAR(10)
會員住址 VARCHAR(50)
會員備注信息 TEXT

那么這個 會員編號，作為主鍵，使用 PRIMARY
會員姓名 如果要建索引的話，那么就是普通的 INDEX
會員身份證號碼 如果要建索引的話，那么可以選擇 UNIQUE （唯一的，不允許重復）

#除此之外還有全文索引，即FULLTEXT
會員備注信息 ， 如果需要建索引的話，可以選擇全文搜索。
用於搜索很長一篇文章的時候，效果最好。
用在比較短的文本，如果就一兩行字的，普通的 INDEX 也可以。
但其實對於全文搜索，我們並不會使用MySQL自帶的該索引，而是會選擇第三方軟件如Sphinx，專門來做全文搜索。

#其他的如空間索引SPATIAL，了解即可，幾乎不用

三索引的兩大類型hash與btree

#我們可以在創建上述索引的時候，為其指定索引類型，分兩類
hash類型的索引：查詢單條快，范圍查詢慢
btree類型的索引：b+樹，層數越多，數據量指數級增長（我們就用它，因為innodb默認支持它）

#不同的存儲引擎支持的索引類型也不一樣
InnoDB 支持事務，支持行級別鎖定，支持 B-tree、Full-text 等索引，不支持 Hash 索引；
MyISAM 不支持事務，支持表級別鎖定，支持 B-tree、Full-text 等索引，不支持 Hash 索引；
Memory 不支持事務，支持表級別鎖定，支持 B-tree、Hash 等索引，不支持 Full-text 索引；
NDB 支持事務，支持行級別鎖定，支持 Hash 索引，不支持 B-tree、Full-text 等索引；
Archive 不支持事務，支持表級別鎖定，不支持 B-tree、Hash、Full-text 等索引；

四創建/刪除索引的語法

#方法一：創建表時
    　　CREATE TABLE 表名 (
                字段名1  數據類型 [完整性約束條件…],
                字段名2  數據類型 [完整性約束條件…],
                [UNIQUE | FULLTEXT | SPATIAL ]   INDEX | KEY
                [索引名]  (字段名[(長度)]  [ASC |DESC]) 
                );


#方法二：CREATE在已存在的表上創建索引
        CREATE  [UNIQUE | FULLTEXT | SPATIAL ]  INDEX  索引名 
                     ON 表名 (字段名[(長度)]  [ASC |DESC]) ;


#方法三：ALTER TABLE在已存在的表上創建索引
        ALTER TABLE 表名 ADD  [UNIQUE | FULLTEXT | SPATIAL ] INDEX
                             索引名 (字段名[(長度)]  [ASC |DESC]) ;
                             
#刪除索引：DROP INDEX 索引名 ON 表名字;

四測試索引

1 准備

#1. 准備表
create table s1(
id int,
name varchar(20),
gender char(6),
email varchar(50)
);

#2. 創建存儲過程，實現批量插入記錄
delimiter $$ #聲明存儲過程的結束符號為$$
create procedure auto_insert1()
BEGIN
    declare i int default 1;
    while(i<3000000)do
        insert into s1 values(i,concat('egon',i),'male',concat('egon',i,'@oldboy'));
        set i=i+1;
    end while;
END$$ #$$結束
delimiter ; #重新聲明分號為結束符號

#3. 查看存儲過程
show create procedure auto_insert1\G 

#4. 調用存儲過程
call auto_insert1();

2 在沒有索引的前提下測試查詢速度

#無索引：從頭到尾掃描一遍，所以查詢速度很慢
mysql> select * from s1 where id=333;
+------+---------+--------+----------------+
| id   | name    | gender | email          |
+------+---------+--------+----------------+
|  333 | egon333 | male   | 333@oldboy.com |
|  333 | egon333 | f      | alex333@oldboy |
|  333 | egon333 | f      | alex333@oldboy |
+------+---------+--------+----------------+
3 rows in set (0.32 sec)

mysql> select * from s1 where email='egon333@oldboy';
....
... rows in set (0.36 sec)

3 加上索引

#1. 一定是為搜索條件的字段創建索引，比如select * from t1 where age > 5;就需要為age加上索引

#2. 在表中已經有大量數據的情況下，建索引會很慢，且占用硬盤空間，插入刪除更新都很慢，只有查詢快
比如create index idx on s1(id);會掃描表中所有的數據，然后以id為數據項，創建索引結構，存放於硬盤的表中。
建完以后，再查詢就會很快了

#3. 需要注意的是：innodb表的索引會存放於s1.ibd文件中，而myisam表的索引則會有單獨的索引文件table1.MYI

：我們可以去mysql的data目錄下找到該表，可以看到占用的硬盤空間多了

五正確使用索引

一並不是說我們創建了索引就一定會加快查詢速度，如下索引未命中

select sql_no_cache * from s1 where email='xxx'; #命中索引，速度很快
select sql_no_cache * from s1 where email like '%old%'; #無法使用索引，速度依然很慢

二覆蓋索引與索引合並

#覆蓋索引：
    - 在索引文件中直接獲取數據
    http://blog.itpub.net/22664653/viewspace-774667/

#分析
select * from s1 where id=123;
該sql命中了索引，但未覆蓋索引。
利用id=123到索引的數據結構中定位到該id在硬盤中的位置，或者說再數據表中的位置。
但是我們select的字段為*，除了id以外還需要其他字段，這就意味着，我們通過索引結構取到id還不夠，還需要利用該id再去找到該id所在行的其他字段值，這是需要時間的，很明顯，如果我們只select id，就減去了這份苦惱，如下
select id from s1 where id=123;
這條就是覆蓋索引了，命中索引，且從索引的數據結構直接就取到了id在硬盤的地址，速度很快

#索引合並：把多個單列索引合並使用

#分析：
組合索引能做到的事情，我們都可以用索引合並去解決，比如
create index ne on s1(name,email);#組合索引
我們完全可以單獨為name和email創建索引

組合索引可以命中：
select * from s1 where name='egon' ;
select * from s1 where name='egon' and email='adf';

索引合並可以命中：
select * from s1 where name='egon' ;
select * from s1 where email='adf';
select * from s1 where name='egon' and email='adf';

乍一看好像索引合並更好了：可以命中更多的情況，但其實要分情況去看，如果是name='egon' and email='adf',那么組合索引的效率要高於索引合並，如果是單條件查，那么還是用索引合並比較合理

三若想利用索引達到預想的提高查詢速度的效果，我們在添加索引時，必須遵循以下原則

#1.最左前綴匹配原則，非常重要的原則，
create index ix_name_email on s1(name,email,)
- 最左前綴匹配：必須按照從左到右的順序匹配
select * from s1 where name='egon'; #可以
select * from s1 where name='egon' and email='asdf'; #可以
select * from s1 where email='alex@oldboy.com'; #不可以
mysql會一直向右匹配直到遇到范圍查詢(>、<、between、like)就停止匹配，比如a = 1 and b = 2 and c > 3 and d = 4 如果建立(a,b,c,d)順序的索引，d是用不到索引的，如果建立(a,b,d,c)的索引則都可以用到，a,b,d的順序可以任意調整。

#2.=和in可以亂序，比如a = 1 and b = 2 and c = 3 建立(a,b,c)索引可以任意順序，mysql的查詢優化器會幫你優化成索引可以識別的形式

#3.盡量選擇區分度高的列作為索引,區分度的公式是count(distinct col)/count(*)，表示字段不重復的比例，比例越大我們掃描的記錄數越少，唯一鍵的區分度是1，而一些狀態、性別字段可能在大數據面前區分度就是0，那可能有人會問，這個比例有什么經驗值嗎？使用場景不同，這個值也很難確定，一般需要join的字段我們都要求是0.1以上，即平均1條掃描10條記錄

#4.索引列不能參與計算，保持列“干凈”，比如from_unixtime(create_time) = ’2014-05-29’就不能使用到索引，原因很簡單，b+樹中存的都是數據表中的字段值，但進行檢索時，需要把所有元素都應用函數才能比較，顯然成本太大。所以語句應該寫成create_time = unix_timestamp(’2014-05-29’);

#5.盡量的擴展索引，不要新建索引。比如表中已經有a的索引，現在要加(a,b)的索引，那么只需要修改原來的索引即可

最左前綴示范

mysql> select * from s1 where id>3 and name='egon' and email='alex333@oldboy.com' and gender='male';
Empty set (0.39 sec)

mysql> create index idx on s1(id,name,email,gender); #未遵循最左前綴
Query OK, 0 rows affected (15.27 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> select * from s1 where id>3 and name='egon' and email='alex333@oldboy.com' and gender='male';
Empty set (0.43 sec)


mysql> drop index idx on s1;
Query OK, 0 rows affected (0.16 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> create index idx on s1(name,email,gender,id); #遵循最左前綴
Query OK, 0 rows affected (15.97 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> select * from s1 where id>3 and name='egon' and email='alex333@oldboy.com' and gender='male';
Empty set (0.03 sec)

索引無法命中的情況需要注意：

- like '%xx'
    select * from tb1 where email like '%cn';
    
    
- 使用函數
    select * from tb1 where reverse(email) = 'wupeiqi';
    
    
- or
    select * from tb1 where nid = 1 or name = 'seven@live.com';
    
    
    特別的：當or條件中有未建立索引的列才失效，以下會走索引
            select * from tb1 where nid = 1 or name = 'seven';
            select * from tb1 where nid = 1 or name = 'seven@live.com' and email = 'alex'
            
            
- 類型不一致
    如果列是字符串類型，傳入條件是必須用引號引起來，不然...
    select * from tb1 where email = 999;
    
普通索引的不等於不會走索引
- !=
    select * from tb1 where email != 'alex'
    
    特別的：如果是主鍵，則還是會走索引
        select * from tb1 where nid != 123
- >
    select * from tb1 where email > 'alex'
    
    
    特別的：如果是主鍵或索引是整數類型，則還是會走索引
        select * from tb1 where nid > 123
        select * from tb1 where num > 123
        
        
#排序條件為索引，則select字段必須也是索引字段，否則無法命中
- order by
    select name from s1 order by email desc;
    當根據索引排序時候，select查詢的字段如果不是索引，則不走索引
    select email from s1 order by email desc;
    特別的：如果對主鍵排序，則還是走索引：
        select * from tb1 order by nid desc;
 
- 組合索引最左前綴
    如果組合索引為：(name,email)
    name and email       -- 使用索引
    name                 -- 使用索引
    email                -- 不使用索引


- count(1)或count(列)代替count(*)在mysql中沒有差別了

- create index xxxx  on tb(title(19)) #text類型，必須制定長度

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 mysql數據庫從刪庫到跑路之mysql庫操作 MySQL從刪庫到跑路（一）——MySQL數據庫簡介 mysql數據庫從刪庫到跑路之mysql其他刪庫跑路?你應該看看雲數據庫我刪庫跑路失敗了 MySQL從刪庫到跑路（三）——SQL語言 Mysql binlog備份數據及恢復數據，學會這個，我在也不怕刪庫跑路啦~ 刪庫跑路技巧刪庫跑路命令刪庫跑路技巧刪庫跑路命令刪庫了，我們一定要跑路嗎？