文章轉自http://www.ttlsa.com/mysql/mysql-sql-performance-let-you-head-big-open/
今天看了一篇文章,講述了使用in在某些情況下的缺陷,然后作者通過union生成臨時表解決了這個問題,感覺這個優化特別好,和大家分享一下
由於分庫分表的原因,和開發規定了不能使用 表表JOIN 語句。因此,我們要將 JOIN 語句的轉化成使用 IN 來做。如現在有 表 A(a_id, c_a)c_a有普通索引,表 B(b_id, c_a) 這兩個表要關聯, 應該轉化為以下步驟處理:
- 先查詢B中的 a_id
1
|
SELECT c_a FROM B WHERE xxx;
|
- 使用 IN 查詢 A 表
1
|
SELECT a_id, ... FROM A WHERE c_a IN(在 1 中查出來的 c_a)
|
場景
現在表的數據量有 800萬。
一般的使用語句是:
1
|
SELECT * FROM A WHERE c_a IN(955555, 955556, 955557, 955558, 955559);
|
上面語句會執行的很快,知道使用 explain 的都明白這樣一般都是會使用索引的,並且是所有范圍掃描。
MySQL不會從 1 開始 掃描 800萬,而是從555555 掃描到 555559(只要掃描5行數據)。
在一般情況下是沒有什么問題的。但是如果 IN 里面的數據是不連續的就有很大問題了。
創建表結構語句
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
|
CREATE TABLE t(
id INT unsigned NOT NULL AUTO_INCREMENT,
cid INT unsigned NOT NULL DEFAULT 0,
c1 VARCHAR(50) NOT NULL DEFAULT '',
c2 VARCHAR(50) NOT NULL DEFAULT '',
c3 VARCHAR(50) NOT NULL DEFAULT '',
c4 VARCHAR(50) NOT NULL DEFAULT '',
c5 VARCHAR(50) NOT NULL DEFAULT '',
c6 VARCHAR(50) NOT NULL DEFAULT '',
PRIMARY KEY(id),
INDEX idx$cid(cid)
);
INSERT INTO t VALUES(
NULL,
FLOOR(RAND() * 1000000),
REPEAT('a', 50),
REPEAT('a', 50),
REPEAT('a', 50),
REPEAT('a', 50),
REPEAT('a', 50),
REPEAT('a', 50)
);
-- 重復執行
INSERT INTO t
SELECT NULL,
FLOOR(RAND() * 1000000),
c1,
c2,
c3,
c4,
c5,
c6
FROM t;
|
下面是具體的實驗過程
- 使用IN查詢連續的數
1
2
3
4
5
6
7
8
9
10
11
12
13
|
SELECT *
FROM t
WHERE cid IN(955555, 955556, 955557, 955558, 955559);
+---------+--------+-----------------------------------
| id | cid | c1
+---------+--------+-----------------------------------
| 319330 | 955555 | aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
| 1885293 | 955555 | aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
| ......
| 8733757 | 955559 | aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
| 8796305 | 955559 | aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
+---------+--------+-----------------------------------
41 rows in set (0.15 sec)
|
- 使用IN查詢不連續的數
1
2
3
4
5
6
7
8
9
10
11
12
13
|
SELECT *
FROM t
WHERE cid IN(1, 5000, 50000, 500000, 955559);
+---------+--------+-----------------------------------
| id | cid | c1
+---------+--------+-----------------------------------
| 1 | 341702 | 1 | aaaaaaaaaaaaaaaaaaaaaaaaa
| 1 | 1045176 | 1 | aaaaaaaaaaaaaaaaaaaaaaaaa
......
| 955559 | 8733757 | 955559 | aaaaaaaaaaaaaaaaaaaaaaaaa
| 955559 | 8796305 | 955559 | aaaaaaaaaaaaaaaaaaaaaaaaa
+--------+---------+--------+--------------------------
41 rows in set (4.34 sec)
|
- 使用UNION優化
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
|
SELECT *
FROM (
SELECT 1 AS cid UNION ALL
SELECT 5000 UNION ALL
SELECT 50000 UNION ALL
SELECT 500000 UNION ALL
SELECT 955559
) AS tmp, t
WHERE tmp.cid = t.cid;
+---------+--------+-----------------------------------
| id | cid | c1
+---------+--------+-----------------------------------
| 1 | 341702 | 1 | aaaaaaaaaaaaaaaaaaaaaaaaa
| 1 | 1045176 | 1 | aaaaaaaaaaaaaaaaaaaaaaaaa
......
| 955559 | 8733757 | 955559 | aaaaaaaaaaaaaaaaaaaaaaaaa
| 955559 | 8796305 | 955559 | aaaaaaaaaaaaaaaaaaaaaaaaa
+--------+---------+--------+--------------------------
41 rows in set (0.01 sec)
|
從上面可以看出上面使用UNION的方法生成一個臨時表作為關聯的主表。
拓展
要是MySQL有只帶的一個行轉列的函數那就完美了。這樣我們就可以不用使用UNION了。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
|
SELECT 1, 5000, 50000, 500000, 955559;
+---+------+-------+--------+--------+
| 1 | 5000 | 50000 | 500000 | 955559 |
+---+------+-------+--------+--------+
| 1 | 5000 | 50000 | 500000 | 955559 |
+---+------+-------+--------+--------+
1 row in set (0.00 sec)
變成以下
SELECT row_to_col(1, 5000, 50000, 500000, 955559);
+--------+
| id |
+--------+
| 1 |
| 5000 |
| 50000 |
| 500000 |
| 955559 |
+--------+
|
要是能像上面就太棒了簡直。