索引的數據結構
如上圖,是一顆b+樹,關於b+樹的定義可以參見B+樹,這里只說一些重點,淺藍色的塊我們稱之為一個磁盤塊,可以看到每個磁盤塊包含幾個數據項(深藍色所示)和指針(黃色所示),如磁盤塊1包含數據項17和35,包含指針P1、P2、P3,P1表示小於17的磁盤塊,P2表示在17和35之間的磁盤塊,P3表示大於35的磁盤塊。真實的數據存在於葉子節點即3、5、9、10、13、15、28、29、36、60、75、79、90、99。非葉子節點只不存儲真實的數據,只存儲指引搜索方向的數據項,如17、35並不真實存在於數據表中。
###b+樹的查找過程
如圖所示,如果要查找數據項29,那么首先會把磁盤塊1由磁盤加載到內存,此時發生一次IO,在內存中用二分查找確定29在17和35之間,鎖定磁盤塊1的P2指針,內存時間因為非常短(相比磁盤的IO)可以忽略不計,通過磁盤塊1的P2指針的磁盤地址把磁盤塊3由磁盤加載到內存,發生第二次IO,29在26和30之間,鎖定磁盤塊3的P2指針,通過指針加載磁盤塊8到內存,發生第三次IO,同時內存中做二分查找找到29,結束查詢,總計三次IO。真實的情況是,3層的b+樹可以表示上百萬的數據,如果上百萬的數據查找只需要三次IO,性能提高將是巨大的,如果沒有索引,每個數據項都要發生一次IO,那么總共需要百萬次的IO,顯然成本非常非常高。
###b+樹性質
1.索引字段要盡量的小:通過上面的分析,我們知道IO次數取決於b+數的高度h,假設當前數據表的數據為N,每個磁盤塊的數據項的數量是m,則有h=㏒(m+1)N,當數據量N一定的情況下,m越大,h越小;而m = 磁盤塊的大小 / 數據項的大小,磁盤塊的大小也就是一個數據頁的大小,是固定的,如果數據項占的空間越小,數據項的數量越多,樹的高度越低。這就是為什么每個數據項,即索引字段要盡量的小,比如int占4字節,要比bigint8字節少一半。這也是為什么b+樹要求把真實的數據放到葉子節點而不是內層節點,一旦放到內層節點,磁盤塊的數據項會大幅度下降,導致樹增高。當數據項等於1時將會退化成線性表。
2.索引的最左匹配特性:當b+樹的數據項是復合的數據結構,比如(name,age,sex)的時候,b+數是按照從左到右的順序來建立搜索樹的,比如當(張三,20,F)這樣的數據來檢索的時候,b+樹會優先比較name來確定下一步的所搜方向,如果name相同再依次比較age和sex,最后得到檢索的數據;但當(20,F)這樣的沒有name的數據來的時候,b+樹就不知道下一步該查哪個節點,因為建立搜索樹的時候name就是第一個比較因子,必須要先根據name來搜索才能知道下一步去哪里查詢。比如當(張三,F)這樣的數據來檢索時,b+樹可以用name來指定搜索方向,但下一個字段age的缺失,所以只能把名字等於張三的數據都找到,然后再匹配性別是F的數據了, 這個是非常重要的性質,即索引的最左匹配特性。
Mysql索引管理
功能:
#1. 索引的功能就是加速查找 #2. mysql中的primary key,unique,聯合唯一也都是索引,這些索引除了加速查找以外,還有約束的功能
常用索引:
普通索引INDEX:加速查找 唯一索引: -主鍵索引PRIMARY KEY:加速查找+約束(不為空、不能重復) -唯一索引UNIQUE:加速查找+約束(不能重復) 聯合索引: -PRIMARY KEY(id,name):聯合主鍵索引 -UNIQUE(id,name):聯合唯一索引 -INDEX(id,name):聯合普通索引

舉個例子來說,比如你在為某商場做一個會員卡的系統。 這個系統有一個會員表 有下列字段: 會員編號 INT 會員姓名 VARCHAR(10) 會員身份證號碼 VARCHAR(18) 會員電話 VARCHAR(10) 會員住址 VARCHAR(50) 會員備注信息 TEXT 那么這個 會員編號,作為主鍵,使用 PRIMARY 會員姓名 如果要建索引的話,那么就是普通的 INDEX 會員身份證號碼 如果要建索引的話,那么可以選擇 UNIQUE (唯一的,不允許重復) #除此之外還有全文索引,即FULLTEXT 會員備注信息 , 如果需要建索引的話,可以選擇全文搜索。 用於搜索很長一篇文章的時候,效果最好。 用在比較短的文本,如果就一兩行字的,普通的 INDEX 也可以。 但其實對於全文搜索,我們並不會使用MySQL自帶的該索引,而是會選擇第三方軟件如Sphinx,專門來做全文搜索。 #其他的如空間索引SPATIAL,了解即可,幾乎不用
索引的兩大類型:
#我們可以在創建上述索引的時候,為其指定索引類型,分兩類 hash類型的索引:查詢單條快,范圍查詢慢 btree類型的索引:b+樹,層數越多,數據量指數級增長(我們就用它,因為innodb默認支持它) #不同的存儲引擎支持的索引類型也不一樣 InnoDB 支持事務,支持行級別鎖定,支持 B-tree、Full-text 等索引,不支持 Hash 索引; MyISAM 不支持事務,支持表級別鎖定,支持 B-tree、Full-text 等索引,不支持 Hash 索引; Memory 不支持事務,支持表級別鎖定,支持 B-tree、Hash 等索引,不支持 Full-text 索引; NDB 支持事務,支持行級別鎖定,支持 Hash 索引,不支持 B-tree、Full-text 等索引; Archive 不支持事務,支持表級別鎖定,不支持 B-tree、Hash、Full-text 等索引;
創建與刪除:
#方法一:創建表時 CREATE TABLE 表名 ( 字段名1 數據類型 [完整性約束條件…], 字段名2 數據類型 [完整性約束條件…], [UNIQUE | FULLTEXT | SPATIAL ] INDEX | KEY [索引名] (字段名[(長度)] [ASC |DESC]) ); #方法二:CREATE在已存在的表上創建索引 CREATE [UNIQUE | FULLTEXT | SPATIAL ] INDEX 索引名 ON 表名 (字段名[(長度)] [ASC |DESC]) ; #方法三:ALTER TABLE在已存在的表上創建索引 ALTER TABLE 表名 ADD [UNIQUE | FULLTEXT | SPATIAL ] INDEX 索引名 (字段名[(長度)] [ASC |DESC]) ; #刪除索引:DROP INDEX 索引名 ON 表名字;

#方式一 create table t1( id int, name char, age int, sex enum('male','female'), unique key uni_id(id), index ix_name(name) #index沒有key ); #方式二 create index ix_age on t1(age); #方式三 alter table t1 add index ix_sex(sex); #查看 mysql> show create table t1; | t1 | CREATE TABLE `t1` ( `id` int(11) DEFAULT NULL, `name` char(1) DEFAULT NULL, `age` int(11) DEFAULT NULL, `sex` enum('male','female') DEFAULT NULL, UNIQUE KEY `uni_id` (`id`), KEY `ix_name` (`name`), KEY `ix_age` (`age`), KEY `ix_sex` (`sex`) ) ENGINE=InnoDB DEFAULT CHARSET=latin1
測試索引:

#1. 准備表 create table s1( id int, name varchar(20), gender char(6), email varchar(50) ); #2. 創建存儲過程,實現批量插入記錄 delimiter $$ #聲明存儲過程的結束符號為$$ create procedure auto_insert1() BEGIN declare i int default 1; while(i<3000000)do insert into s1 values(i,'egon','male',concat('egon',i,'@oldboy')); set i=i+1; end while; END$$ #$$結束 delimiter ; #重新聲明分號為結束符號 #3. 查看存儲過程 show create procedure auto_insert1\G #4. 調用存儲過程 call auto_insert1();
# 1. 在沒有索引的前提下測試速度 #無索引:mysql根本就不知道到底是否存在id等於333333333的記錄,只能把數據表從頭到尾掃描一遍,此時有多少個磁盤塊就需要進行多少IO操作,所以查詢速度很慢 mysql> select * from s1 where id=333333333; Empty set (1.39 sec) # 2. 建立索引 # 在表中已經存在大量數據的情況下建立索引會非常慢 mysql> create index idx_id on s1(id); Query OK, 0 rows affected (6.54 sec) Records: 0 Duplicates: 0 Warnings: 0 # 3. 查詢 # 速度變得很快 mysql> select * from s1 where id=333333333; Empty set (0.00 sec) # PS: 1. mysql先去索引表里根據b+樹的搜索原理很快搜索到id等於333333333的記錄不存在,IO大大降低,因而速度明顯提升 2. 我們可以去mysql的data目錄下找到該表,可以看到占用的硬盤空間多了 3. 注意在沒有為其他字段加索引的情況下, 速度很慢 mysql> select * from s1 where email='xxxx'; Empty set (1.32 sec)
# 總結 #1. 一定是為搜索條件的字段創建索引,比如select * from s1 where id = 333;就需要為id加上索引 #2. 在表中已經有大量數據的情況下,建索引會很慢,且占用硬盤空間,建完后查詢速度加快 比如create index idx on s1(id);會掃描表中所有的數據,然后以id為數據項,創建索引結構,存放於硬盤的表中。 建完以后,再查詢就會很快了。 #3. 需要注意的是:innodb表的索引會存放於s1.ibd文件中,而myisam表的索引則會有單獨的索引文件table1.MYI MySAM索引文件和數據文件是分離的,索引文件僅保存數據記錄的地址。而在innodb中,表數據文件本身就是按照B+Tree(BTree即Balance True)組織的一個索引結構,這棵樹的葉節點data域保存了完整的數據記錄。這個索引的key是數據表的主鍵,因此innodb表數據文件本身就是主索引。 因為inndob的數據文件要按照主鍵聚集,所以innodb要求表必須要有主鍵(Myisam可以沒有),如果沒有顯式定義,則mysql系統會自動選擇一個可以唯一標識數據記錄的列作為主鍵,如果不存在這種列,則mysql會自動為innodb表生成一個隱含字段作為主鍵,這字段的長度為6個字節,類型為長整型.
正確使用索引:
- 索引未命中
並不是說我們創建了索引就一定會加快查詢速度,若想利用索引達到預想的提高查詢速度的效果,我們在添加索引時,必須遵循以下問題
范圍問題,或者說條件不明確,條件中出現這些符號或關鍵字:>、>=、<、<=、!= 、between...and...、like、
-
# = 明確指出1000這個id 在索引樹上很快能找到 mysql> select count(*) from s1 where id=1000; +----------+ | count(*) | +----------+ | 1 | +----------+ 1 row in set (0.00 sec) # > 指定的大於1000的id有很多,范圍很大,所以速度明顯下降 mysql> select count(*) from s1 where id>1000; +----------+ | count(*) | +----------+ | 2998999 | +----------+ 1 row in set (0.93 sec) # < 范圍很小, 速度就很快 mysql> select count(*) from s1 where id<1000; +----------+ | count(*) | +----------+ | 999 | +----------+ 1 row in set (0.00 sec)
# 不等於是一個很大的范圍,所以速度很慢 mysql> select count(*) from s1 where id!=1000; +----------+ | count(*) | +----------+ | 2999998 | +----------+ 1 row in set (0.93 sec)
-
# 取決於范圍大小 # 范圍大 ,慢 mysql> select count(*) from s1 where id between 1000 and 3000000; +----------+ | count(*) | +----------+ | 2999000 | +----------+ 1 row in set (0.98 sec) # 范圍小, 快 ysql> select count(*) from s1 where id between 1000 and 2000; +----------+ | count(*) | +----------+ | 1001 | +----------+ 1 row in set (0.00 sec)
-
# %在后面速度很快 mysql> select count(*) from s1 where email like 'xxxx%'; +----------+ | count(*) | +----------+ | 0 | +----------+ 1 row in set (0.00 sec) # %在前面 速度很慢 mysql> select count(*) from s1 where email like '%xxxx'; +----------+ | count(*) | +----------+ | 0 | +----------+ 1 row in set (1.25 sec) # 不加百分號,值也不匹配, 很快 mysql> select count(*) from s1 where email like 'xxxx'; +----------+ | count(*) | +----------+ | 0 | +----------+ 1 row in set (0.00 sec)
盡量選擇區分度高的列作為索引,區分度的公式是count(distinct col)/count(*),表示字段不重復的比例,比例越大我們掃描的記錄數越少,唯一鍵的區分度是1,而一些狀態、性別字段可能在大數據面前區分度就是0,那可能有人會問,這個比例有什么經驗值嗎?使用場景不同,這個值也很難確定,一般需要join的字段我們都要求是0.1以上,即平均1條掃描10條記錄
-
# name已經加上索引,速度依然很慢 mysql> select count(*) from s1 where name = 'egon'; +----------+ | count(*) | +----------+ | 2999999 | +----------+ 1 row in set (1.48 sec) # 原因 我們編寫存儲過程為表s1批量添加記錄,name字段的值均為egon,也就是說name這個字段的區分度很低(gender字段也是一樣的,我們稍后再搭理它) 回憶b+樹的結構,查詢的速度與樹的高度成反比,要想將樹的高低控制的很低,需要保證:在某一層內數據項均是按照從左到右,從小到大的順序依次排開,即左1<左2<左3<... 而對於區分度低的字段,無法找到大小關系,因為值都是相等的,毫無疑問,還想要用b+樹存放這些等值的數據,只能增加樹的高度,字段的區分度越低,則樹的高度越高。極端的情況,索引字段的值都一樣,那么b+樹幾乎成了一根棍。本例中就是這種極端的情況,name字段所有的值均為'egon' #現在我們得出一個結論:為區分度低的字段建立索引,索引樹的高度會很高,然而這具體會帶來什么影響呢??? #1:如果條件是name='xxxx',那么肯定是可以第一時間判斷出'xxxx'是不在索引樹中的(因為樹中所有的值均為'egon’),所以查詢速度很快 #2:如果條件正好是name='egon',查詢時,我們永遠無法從樹的某個位置得到一個明確的范圍,只能往下找,往下找,往下找。。。這與全表掃描的IO次數沒有多大區別,所以速度很慢
=和in可以亂序,比如a = 1 and b = 2 and c = 3 建立(a,b,c)索引可以任意順序,mysql的查詢優化器會幫你優化成索引可以識別的形式
索引列不能參與計算,保持列“干凈”,比如from_unixtime(create_time) = ’2014-05-29’就不能使用到索引,原因很簡單,b+樹中存的都是數據表中的字段值,但進行檢索時,需要把所有元素都應用函數才能比較,顯然成本太大。所以語句應該寫成create_time = unix_timestamp(’2014-05-29’)
andy/or
-
#注意: 條件1 and 條件2:查詢原理是:首先條件1與條件2都成立的前提下,才算匹配成功一條記錄;其次mysql會按先優先判斷索引字段的條件,如果按照該條件為真,但鎖定的范圍很小,或者干脆為假,那我們即便是沒有為其他條件的字段添加索引,最終的結果仍然很快 #例如: 若條件1的字段有索引,而條件2的字段沒有索引,那么如果在按照條件1查出的結果很少的情況下,即便我們沒有為條件2創建索引,最終的查詢速度依然很快 若條件1的字段沒有索引,而條件2的字段有索引,那么如果在按照條件2查出的結果很少的情況下,即便我們沒有為條件1創建索引,最終的查詢速度依然很快 # 在左邊條件成立但是索引字段的區分度低的情況下(name與gender均屬於這種情況),會依次往右找到一個區分度高的索引字段,加速查詢
-
mysql> select count(*) from s1 where id = 100 and name = 'egon'; +----------+ | count(*) | +----------+ | 1 | +----------+ 1 row in set (0.00 sec)
最左前綴匹配原則,非常重要的原則,對於組合索引mysql會一直向右匹配直到遇到范圍查詢(>、<、between、like)就停止匹配(指的是范圍大了,有索引速度也慢),比如a = 1 and b = 2 and c > 3 and d = 4 如果建立(a,b,c,d)順序的索引,d是用不到索引的,如果建立(a,b,d,c)的索引則都可以用到,a,b,d的順序可以任意調整。
-
# 建立聯合索引,將區分度高的放在后面依然很慢 mysql> create index xxx on s1(id, name, gender, email); Query OK, 0 rows affected (54.04 sec) Records: 0 Duplicates: 0 Warnings: 0 mysql> select count(*) from s1 where name='egon' and gender='male' and id>333 and email='xxx'; +----------+ | count(*) | +----------+ | 0 | +----------+ 1 row in set (1.80 sec) # 改變聯合索引順序 mysql> create index xxx on s1(name, gender, email, id); Query OK, 0 rows affected (44.14 sec) Records: 0 Duplicates: 0 Warnings: 0 mysql> select count(*) from s1 where name='egon' and gender='male' and id>333 and email='xxx'; +----------+ | count(*) | +----------+ | 0 | +----------+ 1 row in set (0.00 sec) # 很快
-
- 使用函數 select * from tb1 where reverse(email) = 'egon'; - 類型不一致 如果列是字符串類型,傳入條件是必須用引號引起來,不然... select * from tb1 where email = 999; #排序條件為索引,則select字段必須也是索引字段,否則無法命中 - order by select name from s1 order by email desc; 當根據索引排序時候,select查詢的字段如果不是索引,則速度仍然很慢 select email from s1 order by email desc; 特別的:如果對主鍵排序,則還是速度很快: select * from tb1 order by nid desc; - 組合索引最左前綴 如果組合索引為:(name,email) name and email -- 命中索引 name -- 命中索引 email -- 未命中索引 - count(1)或count(列)代替count(*)在mysql中沒有差別了 - create index xxxx on tb(title(19)) #text類型,必須制定長度
注意事項:
-
- 避免使用select * - count(1)或count(列) 代替 count(*) - 創建表時盡量時 char 代替 varchar - 表的字段順序固定長度的字段優先 - 組合索引代替多個單列索引(經常使用多個條件查詢時) - 盡量使用短索引 - 使用連接(JOIN)來代替子查詢(Sub-Queries) - 連表時注意條件類型需一致 - 索引散列值(重復少)不適合建索引,例:性別不適合
覆蓋索引與索引合並
-
#覆蓋索引: - 所有字段(條件的,查詢結果的等)都是索引字段 http://blog.itpub.net/22664653/viewspace-774667/ #分析 select age from s1 where id=123 and name = 'egon'; #id字段有索引,但是name字段沒有索引 該sql命中了索引,但未覆蓋全部。 利用id=123到索引的數據結構中定位到了id字段,但是仍要判斷name字段,但是name字段沒有索引,而且查詢結果的字段age也沒有索引 最牛逼的情況是,索引字段覆蓋了所有,那全程通過索引來加速查詢以及獲取結果就ok了
#索引合並:把多個單列索引合並使用 #分析: 組合索引能做到的事情,我們都可以用索引合並去解決,比如 create index ne on s1(name,email);#組合索引 我們完全可以單獨為name和email創建索引,然后按照where name='xxx' and email='xxx'使用 #索引合並 組合索引可以命中: select * from s1 where name='egon' ; select * from s1 where name='egon' and email='adf'; 索引合並可以命中: select * from s1 where name='egon' ; select * from s1 where email='adf'; select * from s1 where name='egon' and email='adf'; 乍一看好像索引合並更好了:可以命中更多的情況,但其實要分情況去看,如果是name='egon' and email='adf',那么組合索引的效率要高於索引合並,如果是單條件查,那么還是用索引合並比較合理
查詢優化神器- explain
具體用法和字段含義可以參考官網explain-output,這里需要強調rows是核心指標,絕大部分rows小的語句執行一定很快(有例外,下面會講到)。所以優化語句基本上都是在優化rows。
執行計划:讓mysql預估執行操作(一般正確) all < index < range < index_merge < ref_or_null < ref < eq_ref < system/const id,email 慢: select * from userinfo3 where name='alex' explain select * from userinfo3 where name='alex' type: ALL(全表掃描) select * from userinfo3 limit 1; 快: select * from userinfo3 where email='alex' type: const(走索引)
慢查詢優化的基本步驟
0.先運行看看是否真的很慢,注意設置SQL_NO_CACHE 1.where條件單表查,鎖定最小返回記錄表。這句話的意思是把查詢語句的where都應用到表中返回的記錄數最小的表開始查起,單表每個字段分別查詢,看哪個字段的區分度最高 2.explain查看執行計划,是否與1預期一致(從鎖定記錄較少的表開始查詢) 3.order by limit 形式的sql語句讓排序的表優先查 4.了解業務方使用場景 5.加索引時參照建索引的幾大原則 6.觀察結果,不符合預期繼續從0分析
慢日志管理
慢日志 - 執行時間 > 10 - 未命中索引 - 日志文件路徑 配置: - 內存 show variables like '%query%'; show variables like '%queries%'; set global 變量名 = 值 - 配置文件 mysqld --defaults-file='E:\wupeiqi\mysql-5.7.16-winx64\mysql-5.7.16-winx64\my-default.ini' my.conf內容: slow_query_log = ON slow_query_log_file = D:/.... 注意:修改配置文件之后,需要重啟服務

MySQL日志管理 ======================================================== 錯誤日志: 記錄 MySQL 服務器啟動、關閉及運行錯誤等信息 二進制日志: 又稱binlog日志,以二進制文件的方式記錄數據庫中除 SELECT 以外的操作 查詢日志: 記錄查詢的信息 慢查詢日志: 記錄執行時間超過指定時間的操作 中繼日志: 備庫將主庫的二進制日志復制到自己的中繼日志中,從而在本地進行重放 通用日志: 審計哪個賬號、在哪個時段、做了哪些事件 事務日志或稱redo日志: 記錄Innodb事務相關的如事務執行時間、檢查點等 ======================================================== 一、bin-log 1. 啟用 # vim /etc/my.cnf [mysqld] log-bin[=dir\[filename]] # service mysqld restart 2. 暫停 //僅當前會話 SET SQL_LOG_BIN=0; SET SQL_LOG_BIN=1; 3. 查看 查看全部: # mysqlbinlog mysql.000002 按時間: # mysqlbinlog mysql.000002 --start-datetime="2012-12-05 10:02:56" # mysqlbinlog mysql.000002 --stop-datetime="2012-12-05 11:02:54" # mysqlbinlog mysql.000002 --start-datetime="2012-12-05 10:02:56" --stop-datetime="2012-12-05 11:02:54" 按字節數: # mysqlbinlog mysql.000002 --start-position=260 # mysqlbinlog mysql.000002 --stop-position=260 # mysqlbinlog mysql.000002 --start-position=260 --stop-position=930 4. 截斷bin-log(產生新的bin-log文件) a. 重啟mysql服務器 b. # mysql -uroot -p123 -e 'flush logs' 5. 刪除bin-log文件 # mysql -uroot -p123 -e 'reset master' 二、查詢日志 啟用通用查詢日志 # vim /etc/my.cnf [mysqld] log[=dir\[filename]] # service mysqld restart 三、慢查詢日志 啟用慢查詢日志 # vim /etc/my.cnf [mysqld] log-slow-queries[=dir\[filename]] long_query_time=n # service mysqld restart MySQL 5.6: slow-query-log=1 slow-query-log-file=slow.log long_query_time=3 查看慢查詢日志 測試:BENCHMARK(count,expr) SELECT BENCHMARK(50000000,2*3); 日志管理