//假設一個for循環 for($i = 0; $i < 10000; $i++) { for ($j = 0; $i < 50; $j++) { } } for($i = 0; $i < 50; $i++) { for ($j = 0; $i < 10000; $j++) { } }
看以上兩個for循環,總共循環的次數是一樣的。但是對於mysql數據庫而言,並不是這樣了,我們盡量選擇第②個for循環,也就是小表驅動大表。
數據庫最傷神的就是跟程序鏈接釋放,第一個建立了10000次鏈接,第二個建立了50次。假設鏈接了兩次,每次做上百萬次的數據集查詢,查完就走,這樣就只做了兩次;相反建立了上百萬次鏈接,申請鏈接釋放反復重復,這樣系統就受不了了。
這時候就誕生了in 和exists的對比。
小表驅動大表:即小的數據集驅動大的數據集。
這里假設A表代表員工表,B表代表部門表。
假設部門只有三個,銷售、技術部、行政部,言下之意是在這三個部門里的所有員工都查出。
select * from A where id in (select id from B);
這樣寫就等價於:
for select id from B。比如華為有100個部門,但是華為的員工少說有15W-20W,員工總比部門多,這時候就相當於得到了小表(部門表);for select * from A where A.id = B.id,相當於A.id等B表里面的,相當於從部門表獲得對應的id。
當B表的數據集必須小於A表的數據集時,用in優於exists。
反之
select * from A where exists (select 1 from B where B.id = A.id); //這里的select 1並不絕對,可以寫為select 'X'或者'A','B','C'都可以,只要是常量就可以。
這樣寫就等價於:
for select * from A,先從A表做循環
for select * from B where B.id = A.id,再從B表做循環。
這樣exists就會變成看看A表是否存在於(select 1 from B where B.id = A.id)里面,這個查詢返回的是TRUE或者FALSE的BOOL值,簡單來說就是要當A表的數據集小於B表的數據集時,用exists優於in。要注意的是:A表與B表的ID字段應該建立索引。
語法:EXISTS
SELECT ...FROM table WHERE EXISTS(subquery)。
理解:將主查詢的數據放到子查詢中做條件驗證,根據驗證結果(TRUE或者FALSE)來決定朱查詢的數據結果是否得意保留。
相當於從表A和B中取出交集,然后再從A表中取出所在交集的部分數據,當然后面加WHERE條件還可以進一步篩選。
補充:
1:EXISTS(subquery)只返回TRUE或者FALSE,因此子查詢中的SELECT * 也可以是SELECT 1或者SELECT 'X',官方說法是實際執行時會忽略SELECT清單,因此沒有區別。
2:EXISTS子查詢的實際執行過程可能經過了優化而不是我們理解上的逐條對比,如果擔憂效率問題,可進行實際校驗。
3:EXISTS子查詢旺旺可以用條件表達式,其他子查詢或者JOIN來替代,何種最優需要具體問題具體分析。
如果查詢的兩個表大小相當,那么用in和exists差別不大。
延伸舉例鞏固:
如果兩個表中一個較小,一個是大表,則子查詢表大的用exists,子查詢表小的用in:
例如:表A(小表),表B(大表)
select * from A where cc in (select cc from B) ;// 效率低,用到了A表上cc列的索引;
select * from A where exists(select cc from B where cc=A.cc) ;// 效率高,用到了B表上cc列的索引。
相反的
select * from B where cc in (select cc from A) ; //效率高,用到了B表上cc列的索引;
select * from B where exists(select cc from A where cc=B.cc) ;//效率低,用到了A表上cc列的索引。
not in 和not exists如果查詢語句使用了not in 那么內外表都進行全表掃描,沒有用到索引;而not extsts 的子查詢依然能用到表上的索引。所以無論那個表大,用not exists都比not in要快。