mysql 索引


對於任何DBMS,索引都是進行優化的最主要的因素。對於少量的數據,沒有合適的索引影響不是很大,但是,當隨着數據量的增加,性能會急劇下降。
如果對多列進行索引(組合索引),列的順序非常重要,MySQL僅能對索引最左邊的前綴進行有效的查找。

例如:
假設存在組合索引idx(c1,c2),查詢語句select * from t1 where c1=1 and c2=2能夠使用該索引。查詢語句select * from t1 where c1=1也能夠使用該索引。但是,查詢語句select * from t1 where c2=2不能夠使用該索引,因為沒有組合索引的引導列,即要想使用c2列進行查找,必需出現c1等於某值

索引是快速搜索的關鍵。MySQL索引的建立對於MySQL的高效運行是很重要的。
下面介紹幾種常見的MySQL索引類型:
在數據庫表中,對字段建立索引可以大大提高查詢速度。假如我們創建了一個 mytable表:

CREATE TABLE mytable(
ID INT NOT NULL, 
username VARCHAR(16) NOT NULL 
); 

我們隨機向里面插入了10000條記錄,其中有一條:5555, admin。
在查找username="admin"的記錄時(SELECT * FROM mytable WHERE username='admin'),如果在username上已經建立了索引,MySQL無須任何掃描,即准確可找到該記錄。相反,MySQL會掃描所有記錄,即要查詢10000條記錄。

一、MySQL索引類型包括:
1.普通索引
這是最基本的索引,它沒有任何限制。它有以下幾種創建方式:
a.創建索引
CREATE INDEX indexName ON mytable(username(length));
如果是CHAR,VARCHAR類型,length可以小於字段實際長度;如果是BLOB和TEXT類型,必須指定 length,下同。

b.修改表結構
ALTER mytable ADD INDEX [indexName] ON (username(length))

c.創建表的時候直接指定

CREATE TABLE mytable( 
   ID INT NOT NULL, 
   username VARCHAR(16) NOT NULL, 
   INDEX [indexName] (username(length)) 
); 

刪除索引的語法:
DROP INDEX [indexName] ON mytable;

2.唯一索引
它與前面的普通索引類似,不同的就是:索引列的值必須唯一,但允許有空值。如果是組合索引,則列值的組合必須唯一。它有以下幾種創建方式:

 a.創建索引
CREATE UNIQUE INDEX indexName ON mytable(username(length))

b.修改表結構
ALTER mytable ADD UNIQUE [indexName] ON (username(length))

 c.創建表的時候直接指定

CREATE TABLE mytable( 
   ID INT NOT NULL, 
   username VARCHAR(16) NOT NULL, 
   UNIQUE [indexName] (username(length)) 
); 

3.主鍵索引
它是一種特殊的唯一索引,不允許有空值。一般是在建表的時候同時創建主鍵索引:

CREATE TABLE mytable( 
  ID INT NOT NULL, 
  username VARCHAR(16) NOT NULL, 
  PRIMARY KEY(ID) 
); 

 4.組合索引
為了形象地對比單列索引和組合索引,為表添加多個字段:

CREATE TABLE mytable( 
   ID INT NOT NULL, 
   username VARCHAR(16) NOT NULL, 
   city VARCHAR(50) NOT NULL, 
   age INT NOT NULL 
); 

 為了進一步榨取MySQL的效率,就要考慮建立組合索引。就是將 username, city, age建到一個索引里:

ALTER TABLE mytable ADD INDEX name_city_age (username(10),city,age); 

建表時,usernname長度為16,這里用10。這是因為一般情況下名字的長度不會超過10,這樣會加速索引查詢速度,還會減少索引文件的大小,提高INSERT的更新速度。

如果分別在 usernname,city,age上建立單列索引,讓該表有3個單列索引,查詢時和上述的組合索引效率也會大不一樣,遠遠低於我們的組合索引。雖然此時有了三個索引,但MySQL只能用到其中的那個它認為似乎是最有效率的單列索引。

建立這樣的組合索引,其實是相當於分別建立了下面三組組合索引:
usernname,city,age
usernname,city
usernname

為什么沒有city,age這樣的組合索引呢?這是因為MySQL組合索引“最左前綴”的結果。簡單的理解就是只從最左面的開始組合。並不是只要包含這三列的查詢都會用到該組合索引,下面的幾個SQL就會用到這個組合索引:

SELECT * FROM mytable WHREE username="admin" AND city="鄭州"
SELECT * FROM mytable WHREE username="admin"

 而下面幾個則不會用到:

SELECT * FROM mytable WHREE age=20 AND city="鄭州"
SELECT * FROM mytable WHREE city="鄭州"

二、使用索引的注意事項
使用索引時,有以下一些技巧和注意事項:

1.索引不會包含有NULL值的列
只要列中包含有NULL值都將不會被包含在MySQL索引中,復合索引中只要有一列含有NULL值,那么這一列對於此復合索引就是無效的。所以我們在數據庫設計時不要讓字段的默認值為NULL。

2.使用短索引
對串列進行索引,如果可能應該指定一個前綴長度。例如,如果有一個CHAR(255)的列,如果在前10個或20個字符內,多數值是惟一的,那么就不要對整個列進行索引。短索引不僅可以提高查詢速度而且可以節省磁盤空間和I/O操作。

3.索引列排序
MySQL查詢只使用一個索引,因此如果where子句中已經使用了索引的話,那么order by中的列是不會使用索引的。因此數據庫默認排序可以符合要求的情況下不要使用排序操作;盡量不要包含多個列的排序,如果需要最好給這些列創建復合索引。

4.like語句操作
一般情況下不鼓勵使用like操作,如果非使用不可,如何使用也是一個問題。like “%aaa%” 不會使用MySQL索引而like “aaa%”可以使用索引。

5.不要在列上進行運算

select * from users where YEAR(adddate)<2007; 

 將在每個行上進行運算,這將導致索引失效而進行全表掃描,因此我們可以改成

select * from users where adddate<2007-01-01’;  

6.不使用NOT IN和<>操作
NOT IN和<>操作都不會使用索引將進行全表掃描。NOT IN可以使用NOT EXISTS代替,id<>3則可以使用id>3 or id<3來代替。

三、建立索引的時機
到這里我們已經學會了建立索引,那么我們需要在什么情況下建立索引呢?一般來說,在WHERE和JOIN中出現的列需要建立索引,但也不完全如此,因為MySQL只對<,<=,=,>,>=,BETWEEN,IN,以及某些時候的LIKE才會使用索引。例如:

SELECT t.Name
FROM mytable t LEFT JOIN mytable m 
ON t.Name=m.username WHERE m.age=20 AND m.city='鄭州'

此時就需要對city和age建立索引,由於mytable表的userame也出現在了JOIN子句中,也有對它建立索引的必要。
剛才提到只有某些時候的LIKE才需建立索引。因為在以通配符%和_開頭作查詢時,MySQL不會使用索引。例如下句會使用索引:

SELECT * FROM mytable WHERE username like'admin%'

而下句就不會使用:

SELECT * FROM mytable WHEREt Name like'%admin'

因此,在使用LIKE時應注意以上的區別。

四、索引的不足之處
上面都在說使用索引的好處,但過多的使用索引將會造成濫用。因此索引也會有它的缺點:
(1)雖然索引大大提高了查詢速度,同時卻會降低更新表的速度,如對表進行INSERT、UPDATE和DELETE。因為更新表時,MySQL不僅要保存數據,還要保存一下索引文件。
(2)建立索引會占用磁盤空間的索引文件。一般情況這個問題不太嚴重,但如果你在一個大表上創建了多種組合索引,索引文件的會膨脹很快。
索引只是提高效率的一個因素,如果你的MySQL有大數據量的表,就需要花時間研究建立最優秀的索引,或優化查詢語句。

五、實例

比如有這樣一張表

create table staffs(
        id int primary key auto_increment,
        name varchar(24) not null default '' comment '姓名',
        age int not null default 0 comment '年齡',
        pos varchar(20) not null default '' comment '職位',
        add_time timestamp not null default current_timestamp comment '入職時間'
    ) charset utf8 comment '員工記錄表';

 添加三列的復合索引:

alter table staffs add index idx_nap(name, age, pos);

在BTREE索引的使用上,以下幾種情況可以用到該索引或索引的一部分(使用explain簡單查看使用情況):
1.全值匹配
如select * from staffs where name = 'July' and age = '23' and pos = 'dev' ,key字段顯示使用了idx_nap索引。

2.匹配最左列,對於復合索引來說,不總是匹配所有字段列,但是可以匹配索引中靠左的列,
如select * from staffs where name = 'July' and age = '23',key字段顯示用到了索引,注意,key_len字段(表示本次語句使用的索引長度)數值比上一條小了,意思是它並未使用全部索引列(通常這個長度可估摸着用了哪些索引列),事實上只用到了name和age列。

再試試select * from staffs where name = 'July',它也用了索引,key_len值更小,實際只用到了索引中的name列。

3.匹配列前綴,即一個索引中列的前一部分,主要用在模糊匹配,如select * from staffs where name like 'J%',explain信息的key字段表示使用了索引。

4.匹配范圍,如select * from staffs where name > 'Mary'。

5.精確匹配一列並范圍匹配右側相鄰列,即前一列是固定值,后一列是范圍值,它用了name與age兩個列的索引(key_len推測)
如select * from staffs where name = 'July' and age > 25

6.只訪問索引的查詢,比如staffs表的情況,索引建立在(name,age,pos)上面,前面一直是讀取的全部列,如果我們用到了哪些列的索引,查詢時也只查這些列的數據,就是只訪問索引的查詢,如

select name,age,pos from staffs where name = 'July' and age = 25 and pos = 'dev'
select name,age from staffs where name = July and age > 25

第一句用到了全部索引列,第二句只用了索引前兩列,select的字段就最多只能是這兩列,這種查詢情況的索引,mysql稱為覆蓋索引,就是索引包含(覆蓋)了查詢的全部字段。是不是用到了索引查詢,在explain中需要看最后一個Extra列的信息,Using index表明使用了覆蓋索引,同時Using where表明也使用了where過濾。

7.前綴索引

區別於列前綴(類似like 'J%'形式的模糊匹配)和最左列索引(順序取索引中靠左的列的查詢),它只取某列的一部分作為索引。通常在說InnoDB跟MyISAM的區別時,一個明顯的區別是:MyISAM支持全文索引,而InnoDB不行,甚至對於text、blob這種超長的字符串或二進制數據時,MyISAM會取前多少個字符作為索引,InnoDb的前綴索引跟這個類似,某些列,一般是字符串類型,很長,全部作為索引大大增加存儲空間,索引也需要維護,對於長字符串,又想作為索引列,一個可取的辦法就是取前一部分(前綴),代表一整列作為索引串,問題是:如何確保這個前綴能代表或大致代表這一列?所以mysql中有個概念是索引的選擇性,是指索引中不重復的值的數目(也稱基數)與整個表該列記錄總數(#T)的比值,比如一個列表(1,2,2,3),總數是4,不重復值數目為3,選擇性為3/4,因此選擇性范圍是[1/#T, 1],這個值越大,表示列中不重復值越多,越適合作為前綴索引,唯一索引(UNIQUE KEY)的選擇性是1。

比如有一列a varchar(255),以它作前綴索引,比如以7個測試,逐個增加看看選擇性值增長到那個數基本不變,就表示可以代表整列了,再結合這個長度的索引列是否存儲數據太多,做個權衡,基本就行了。但如果這個選擇性本來就小的可憐還是算了

select count(distinct left(a, 7))/count(*) as non_repeat from tab;

定好一個前綴數目,如9,添加索引時可以這樣

 alter table tab add index idx_pn(name(9))  --單獨前綴索引
 alter table tab add index idx_cpn(count, name(9))  --復合前綴索引

以上為常見的使用索引的方式,有這么些情況不能用或不能全用,有的就是上面情況的反例,以key(a, b, c)為例
(1).跳過列,where a = 1 and c = 3,最多用到索引列a;where b = 2 and c = 3,一個也用不到,必須從最左列開始
(2).前面是范圍查詢,where a = 1 and b > 2 and c = 3,最多用到 a, b兩個索引列;
(3).順序顛倒,where c = 3 and b = 2 and a = 1,一個也用不到;
(4).索引列上使用了表達式,如where substr(a, 1, 3) = 'hhh',where a = a + 1,表達式是一大忌諱,再簡單mysql也不認。有時數據量不是大到嚴重影響速度時,一般可以先查出來,比如先查所有有訂單記錄的數據,再在程序中去篩選以'cp1001'開頭的訂單,而不是寫sql過濾它;
(5).模糊匹配時,盡量寫 where a like 'J%',字符串放在左邊,這樣才可能用得到a列索引,甚至可能還用不到,當然這得看數據類型,最好測試一下。

排序對索引的影響
order by是經常用的語句,排序也遵循最左前綴列的原則,比如key(a, b),下面語句可以用到(測試為妙)

select * from tab where a > 1 order by b
select * from tab where a > 1 and b > '2015-12-01 00:00:00' order by b
select * from tab order by a, b

以下情況用不到
(1).非最左列,select * from tab order by b;
(2).不按索引列順序來的,select * from tab where b > '2015-12-01 00:00:00' order by a;
(3).多列排序,但列的順序方向不一致,select * from tab a asc, b desc。
初步了解以上內容后,就知道了索引冗余了,比如有了(a,b)索引,(a)就是冗余的,需要創建(a)索引時,直接創建(a)就行,而不是(id,a),id指主鍵,主鍵primary key已經是UNIQUE KEY了,不用加唯一限制。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM