參考:
https://www.cnblogs.com/developer_chan/p/9247185.html
https://www.cnblogs.com/chafanbusi/p/10647471.html
https://blog.csdn.net/fly_miqiqi/article/details/90348800
https://blog.csdn.net/dc2222333/article/details/78234649
MySQL高級知識(十六)——小表驅動大表
前言:本來小表驅動大表的知識應該在前面就講解的,但是由於之前並沒有學習數據批量插入,因此將其放在這里。在查詢的優化中永遠小表驅動大表。
1.為什么要小表驅動大表呢
類似循環嵌套
for(int i=5;.......) { for(int j=1000;......) {} }
如果小的循環在外層,對於數據庫連接來說就只連接5次,進行5000次操作,如果1000在外,則需要進行1000次數據庫連接,從而浪費資源,增加消耗。這就是為什么要小表驅動大表。
2.數據准備
根據MySQL高級知識(十)——批量插入數據腳本中的相應步驟在tb_dept_bigdata表中插入100條數據,在tb_emp_bigdata表中插入5000條數據。
注:100個部門,5000個員工。tb_dept_bigdata(小表),tb_emp_bigdata(大表)。
3.案例演示
①當B表的數據集小於A表數據集時,用in優於exists。
select *from tb_emp_bigdata A where A.deptno in (select B.deptno from tb_dept_bigdata B)
B表為tb_dept_bigdata:100條數據,A表tb_emp_bigdata:5000條數據。
用in的查詢時間為:
將上面sql轉換成exists:
select *from tb_emp_bigdata A where exists(select 1 from tb_dept_bigdata B where B.deptno=A.deptno);
用exists的查詢時間:
經對比可看到,在B表數據集小於A表的時候,用in要優於exists,當前的數據集並不大,所以查詢時間相差並不多。
②當A表的數據集小於B表的數據集時,用exists優於in。
select *from tb_dept_bigdata A where A.deptno in(select B.deptno from tb_emp_bigdata B);
用in的查詢時間為:
將上面sql轉換成exists:
select *from tb_dept_bigdata A where exists(select 1 from tb_emp_bigdata B where B.deptno=A.deptno);
用exists的查詢時間:
由於數據量並不是很大,因此對比並不是難么的強烈。
附上視頻的結論截圖:
4.總結
下面結論都是針對in或exists的。
in后面跟的是小表,exists后面跟的是大表。
簡記:in小,exists大。
對於exists
select .....from table where exists(subquery);
可以理解為:將主查詢的數據放入子查詢中做條件驗證,根據驗證結果(true或false)來決定主查詢的數據是否得以保留。
by Shawn Chen,2018.6.30日,下午。
相關內容
MySql 小表驅動大表
在了解之前要先了解對應語法 in 與 exist。
1
2
3
|
IN:
select * from A where A.id in (select B.id from B)
|
in后的括號的表達式結果要求先輸出一列字段。與之前的搜索字段匹配,匹配到相同則返回對應行。
mysql的執行順序是先執行子查詢,然后執行主查詢,用子查詢的結果按條匹配主查詢。
1
2
3
|
EXIST:
select * from A where exists(select * from B where B.id= A.id)
|
exist后的括號里則無輸出要求,exist判斷后面的結果集中有沒有行,有行則返回外層查詢對應的行。
ps所以exist還可以這樣寫: 用常量替換* ,反正是判斷有沒有行,不需要實際傳回的數據。
select * from A where exist(select 1 from B where B.id= A.id)
mysql的執行順序是先執行主查詢,將主查詢的數據放在子查詢中做條件驗證。
大體看來貌似exist的執行效率比in低,但其實exists子查詢在底層做了優化,會忽略select清單,也並不會對每條數據進行對比。
比如這里有兩張表
1
2
3
|
+--------+----------+
| A.id | A.name |
//500行
+--------+----------+
|
1
2
3
|
+--------+----------+
| B.id | B.name |
//5000行
+--------+----------+
|
在查詢中最好使用小表驅動大表,因為在外層表循環內層的時候,會鎖定外層表,如果大表在外,會鎖定5k次 。
如果要求查詢所有id相同的Aname 有兩種查詢方式
1
2
3
|
1
.select A.name from A where A.id in(select B.id from B)
2
.select A.name from A where exists(select
1
from B where A.id = B.id)
|
1.由B表驅動A表 會先執行子查詢 大表驅動小表
2.由A表驅動B表 會先執行主查詢 小表驅動大表
如果需求變為 查詢所有id相同的Bname
1
2
3
|
1
.select B.name from B where B.id in(select A.id from B)
2
.select B.name from B where exists(select
1
from A where A.id = B.id)
|
1.小表驅動大表
2.大表驅動小表
小表驅動大表
1. 驅動表的定義
當進行多表連接查詢時, [驅動表] 的定義為:
1)指定了過濾條件時,滿足查詢條件的記錄行數少的表為[驅動表]
2)未指定過濾條件時,行數少的表為[驅動表](Important!)
2. 為何要 小表驅動大表??
通常來講,不管Oracle還是Mysql,優化的目標都是盡可能的減少關聯的 循環次數,保證小表驅動大表
例: user表10000條數據,class表20條數據
select * from user u left join class c u.userid=c.userid
這樣則需要用user表循環10000次才能查詢出來,而如果用class表驅動user表則只需要循環20次就能查詢出來
分析:不管大表是驅動表還是小表是驅動表,比較次數永遠是10000*20次啊???
小表驅動大表優勢在哪???
優勢在於: 1. 大表具有索引:查詢大表時間是O(Log n)
2. 大表全表掃描:磁盤塊查詢速度快
了解MySQL聯表查詢中的驅動表,優化查詢,以小表驅動大表
為什么要用小表驅動大表
1、驅動表的定義
當進行多表連接查詢時, [驅動表] 的定義為:
1)指定了聯接條件時,滿足查詢條件的記錄行數少的表為[驅動表]
2)未指定聯接條件時,行數少的表為[驅動表](Important!)
忠告:如果你搞不清楚該讓誰做驅動表、誰 join 誰,請讓 MySQL 運行時自行判斷
既然“未指定聯接條件時,行數少的表為[驅動表]”了,而且你也對自己寫出的復雜的 Nested Loop Join 不太有把握(如下面的實例所示),就別指定誰 left/right join 誰了,請交給 MySQL優化器 運行時決定吧。
如果您對自己特別有信心
2、mysql關聯查詢的概念:
MySQL 表關聯的算法是 Nest Loop Join,是通過驅動表的結果集作為循環基礎數據,然后一條一條地通過該結果集中的數據作為過濾條件到下一個表中查詢數據,然后合並結果。
例: user表10000條數據,class表20條數據
select * from user u left join class c u.userid=c.userid
這樣則需要用user表循環10000次才能查詢出來,而如果用class表驅動user表則只需要循環20次就能查詢出來
例:
select * from class c left join user u c.userid=u.userid
小結果集驅動大結果集
de.cel 在2012年總結說,不管是你,還是 MySQL,優化的目標是盡可能減少JOIN中Nested Loop的循環次數。
以此保證:永遠用小結果集驅動大結果集(Important)!