MySQL 組合索引、唯一組合索引的原理


組合索引

前言

之前在網上看到過很多關於 mysql 聯合索引最左前綴匹配的文章,自以為就了解了其原理,最近面試時和面試官交流,發現遺漏了些東西,這里自己整理一下這方面的內容。

什么時候創建組合索引?

當我們的 where 查詢存在多個條件查詢的時候,我們需要對查詢的列創建組合索引。

為什么不對沒一列創建索引

  • 減少開銷
  • 覆蓋索引
  • 效率高

減少開銷:假如對 col1、col2、col3 創建組合索引,相當於創建了(col1)、(col1,col2)、(col1,col2,col3)3 個索引。注意,根據最左原則,不會創建(col2, col3)索引!
覆蓋索引:假如查詢 SELECT col1, col2, col3 FROM 表名,由於查詢的字段存在索引頁中,那么可以從索引中直接獲取,而不需要回表查詢。

效率高:對 col1、col2、col3 三列分別創建索引,MySQL 只會選擇辨識度高的一列作為索引。假設有 100w 的數據,一個索引篩選出 10% 的數據,那么可以篩選出 10w 的數據;對於組合索引而言,可以篩選出 100w * 10% * 10% * 10% = 1000 條數據。

最左匹配原則

假設我們創建(col1,col2,col3)這樣的一個組合索引,那么相當於對 col1 列進行排序,也就是我們創建組合索引,以最左邊的為准,只要查詢條件中帶有最左邊的列,那么查詢就會使用到索引。

創建測試表

CREATE TABLE student ( 
id int(11) NOT NULL, 
name varchar(16) NOT NULL, 
age int(11) NOT NULL, 
PRIMARY KEY (`id`), 
KEY idx_id_name_age (`id`,name(10),`age`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
-- 建表時,name 長度為 16,這里用 10。這是因為一般情況下名字的長度不會超過 10,這樣會加速索引查詢速度,還會減少索引文件的大小,提高 INSERT 的更新速度。
-- 如果分別在 id, name, age 上建立單列索引,讓該表有 3 個單列索引,查詢時和上述的組合索引效率也會大不一樣,遠遠低於我們的組合索引。因為此時雖然有了三個索引,但 MySQL 只能用到其中的那個它認為似乎是最有效率的單列索引。

填充 100w 條測試數據

-- 因為 mysql 一遇到分號,它就要自動執行。因此在輸入多條語句的時候要使用 DELIMITER 重新定義結束符號,告訴 mysql 解釋器,該段命令是否已經結束了,mysql 是否可以執行了。MYSQL 的默認結束符為";"。
DELIMITER $$ 
DROP PROCEDURE IF EXISTS pro10$$
CREATE PROCEDURE pro100()
BEGIN
    DECLARE i INT;
    DECLARE char_str varchar(100) DEFAULT 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789';
    DECLARE return_str varchar(255) DEFAULT '';
    DECLARE age INT;
    SET i = 1;
    WHILE i < 1000000 do
        SET return_str = substring(char_str, FLOOR(1 + RAND()*62), 8);
        SET i = i+1;
        SET age = FLOOR(RAND() * 100);
        INSERT INTO student (id, name, age) values (i, return_str, age);
    END WHILE;
END$$
-- 恢復 MYSQL 的默認結束符為";"
DELIMITER ;
-- 執行寫入 100 萬條數據 
CALL pro100();

場景測試

EXPLAIN SELECT * FROM student WHERE id = 2;

可以看到該查詢使用到了索引(type=const&possible_keys=PRIMARY, idx_id_name_age&key=PRIMARY)

EXPLAIN SELECT * FROM student WHERE id = 2 AND name = 'defghijk';

可以看到該查詢使用到了索引 (type=const&possible_keys=PRIMARY, idx_id_name_age&key=PRIMARY)

EXPLAIN SELECT * FROM student WHERE id = 2 AND name = 'defghijk' and age = 8;

可以看到該查詢使用到了索引(type=const&possible_keys=PRIMARY, idx_id_name_age&key=PRIMARY)

EXPLAIN SELECT * FROM student WHERE id = 2 AND age = 8;

可以看到該查詢使用到了索引(type=const&possible_keys=PRIMARY, idx_id_name_age&key=PRIMARY)

EXPLAIN SELECT * FROM student WHERE name = 'defghijk' AND age = 8;

可以看到該查詢沒有使用到索引 (type=all&possible_keys=null&key=null),類型為 all,查詢行數為 4989449,幾乎進行了全表掃描,由於組合索引只針對最左邊的列進行了排序,對於 name、age 列只能進行全部掃描

EXPLAIN SELECT * FROM student WHERE name = 'defghijk' AND id = 2;
EXPLAIN SELECT * FROM student WHERE age = 8 AND id = 2; 
EXPLAIN SELECT * FROM student WHERE name = 'defghijk' and age = 8 AND id = 2;

可以看到如上查詢也使用到了索引(type=const&possible_keys=PRIMARY, idx_id_name_age&key=PRIMARY),id 放前面和放后面查詢到的結果是一樣的,MySQL 會找出執行效率最高的一種查詢方式,就是先根據 id 進行查詢

總結

如上測試,可以看到只要查詢條件的列中包含組合索引最左邊的那一列,不管該列在查詢條件中的位置,都會使用索引進行查詢。

聯合唯一索引

例如: tbl_test 表中有 aa,bb 兩個字段,如果不希望有 2 條一模一樣的記錄(即:aa 字段的值可以重復; bb 字段的值也可以重復,但是一條記錄(aa, bb)組合值不允許重復),需要給 tbl_test 表添加多個字段的聯合唯一索引:

alter table tbl_test add unique index (aa, bb);

這樣如果向表中添加相同記錄的時候,會返回一下錯誤信息。
但是配合Insert into…ON DUPLICATE KEY UPDATE…來使用就不會報錯,存在相同的記錄,直接忽略。

INSERT INTO unit (id, unitsubclass, name, state)
VALUES('1111','CPU','CPU','0' ) ON DUPLICATE KEY UPDATE       unitsubclass=VALUES(unitsubclass),name =VALUES(name),state =VALUES(state);

還有一種情況就是,我們需要為以前的表 創建這個索引,有可能以前的數據中存在重復的記錄 那怎么辦呢?

alter ignore table tbl_test add unique index (aa,bb);

它會刪除重復的記錄(會保留一條),然后建立唯一索引,高效而且人性化。

參考資料:
[MySQL組合索引與最左匹配原則詳解] https://www.jb51.net/article/157920.htm
[普通索引和組合索引] https://www.jianshu.com/p/40edfbb50046


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM