SQL查找刪除重復行


  本文講述如何查找數據庫里重復的行。這是初學者十分普遍遇到的問題。方法也很簡單。這個問題還可以有其他演變,例如,如何查找“兩字段重復的行”

如何查找重復行

        第一步是定義什么樣的行才是重復行。多數情況下很簡單:它們某一列具有相同的值。本文采用這一定義,或許你對“重復”的定義比這復雜,你需要對sql做些修改。
本文要用到的數據樣本

[sql]  view plain  copy
 
  1. create table test(id int not null primary key, day date not null);  
  2.   
  3. insert into test(id, day) values(1, '2006-10-08');  
  4. insert into test(id, day) values(2, '2006-10-08');  
  5. insert into test(id, day) values(3, '2006-10-09');  
  6.   
  7. select * from test;  
  8. +----+------------+  
  9. | id | day        |  
  10. +----+------------+  
  11. |  1 | 2006-10-08 |  
  12. |  2 | 2006-10-08 |  
  13. |  3 | 2006-10-09 |  
  14. +----+------------+  



        前面兩行在day字段具有相同的值,因此如何我將他們當做重復行,這里有一查詢語句可以查找。查詢語句使用GROUP BY子句把具有相同字段值的行歸為一組,然后計算組的大小。

[sql]  view plain  copy
 
  1.  select day, count(*) from test GROUP BY day;  
  2. +------------+----------+  
  3. day        | count(*) |  
  4. +------------+----------+  
  5. | 2006-10-08 |        2 |  
  6. | 2006-10-09 |        1 |  
  7. +------------+----------+  


        重復行的組大小大於1。如何希望只顯示重復行,必須使用HAVING子句,比如

[sql]  view plain  copy
 
  1. select day, count(*) from test group by day HAVING count(*) > 1;  
  2. +------------+----------+  
  3. day        | count(*) |  
  4. +------------+----------+  
  5. | 2006-10-08 |        2 |  
  6. +------------+----------+  


        這是基本的技巧:根據具有相同值的字段分組,然后知顯示大小大於1的組。

為什么不能使用WHERE子句?

        因為WHERE子句過濾的是分組之前的行,HAVING子句過濾的是分組之后的行。

如何刪除重復行

        一個相關的問題是如何刪除重復行。一個常見的任務是,重復行只保留一行,其他刪除,然后你可以創建適當的索引,防止以后再有重復的行寫入數據庫。
同樣,首先是弄清楚重復行的定義。你要保留的是哪一行呢?第一行,或者某個字段具有最大值的行?本文中,假設要保留的是第一行——id字段具有最小值的行,意味着你要刪除其他的行。
        也許最簡單的方法是通過臨時表。尤其對於MYSQL,有些限制是不能在一個查詢語句中select的同時update一個表。在我的另一篇文章中 MySQL SELECT同時UPDATE同一張表(How to select from an update target in MySQL), 講述了如何繞過這些限制。簡單起見,這里只用到了臨時表的方法。
我們的任務是:刪除所有重復行,除了分組中id字段具有最小值的行。因此,需要找出大小大於1的分組,以及希望保留的行。你可以使用MIN()函數。這里的語句是創建臨時表,以及查找需要用DELETE刪除的行。

[sql]  view plain  copy
 
  1. create temporary table to_delete (day date not null, min_id int not null);  
  2.   
  3. insert into to_delete(day, min_id)  
  4.    select day, MIN(id) from test group by day having count(*) > 1;  
  5.   
  6. select * from to_delete;  
  7. +------------+--------+  
  8. day        | min_id |  
  9. +------------+--------+  
  10. | 2006-10-08 |      1 |  
  11. +------------+--------+  


        有了這些數據,你可以開始刪除“臟數據”行了。可以有幾種方法,各有優劣(詳見我的文章many-to-one problems in SQL),但這里不做詳細比較,只是說明在支持查詢子句的關系數據庫中,使用的標准方法。

[sql]  view plain  copy
 
  1. delete from test  
  2.    where exists(  
  3.       select * from to_delete  
  4.       where to_delete.day = test.day and to_delete.min_id <> test.id  
  5.    )  

如何查找多列上的重復行

        有人最近問到這樣的問題:
我的一個表上有兩個字段b和c,分別關聯到其他兩個表的b和c字段。我想要找出在b字段或者c字段上具有重復值的行。
        咋看很難明白,通過對話后我理解了:他想要對b和c分別創建unique索引。如上所述,查找在某一字段上具有重復值的行很簡單,只要用group分組,然后計算組的大小。並且查找全部字段重復的行也很簡單,只要把所有字段放到group子句。但如果是判斷b字段重復或者c字段重復,問題困難得多。這里提問者用到的樣本數據

[sql]  view plain  copy
 
  1. create table a_b_c(  
  2.    a int not null primary key auto_increment,  
  3.    b int,  
  4.    c int  
  5. );  
  6.   
  7. insert into a_b_c(b,c) values (1, 1);  
  8. insert into a_b_c(b,c) values (1, 2);  
  9. insert into a_b_c(b,c) values (1, 3);  
  10. insert into a_b_c(b,c) values (2, 1);  
  11. insert into a_b_c(b,c) values (2, 2);  
  12. insert into a_b_c(b,c) values (2, 3);  
  13. insert into a_b_c(b,c) values (3, 1);  
  14. insert into a_b_c(b,c) values (3, 2);  
  15. insert into a_b_c(b,c) values (3, 3);  


        現在,你可以輕易看到表里面有一些重復的行,但找不到兩行具有相同的二元組{b, c}。這就是為什么問題會變得困難了。

錯誤的查詢語句

        如果把兩列放在一起分組,你會得到不同的結果,具體看如何分組和計算大小。提問者恰恰是困在了這里。有時候查詢語句找到一些重復行卻漏了其他的。這是他用到了查詢     

[sql]  view plain  copy
 
  1. select b, c, count(*) from a_b_c  
  2. group by b, c  
  3. having count(distinct b > 1)  
  4.    or count(distinct c > 1);  


        結果返回所有的行,因為CONT(*)總是1.為什么?因為 >1 寫在COUNT()里面。這個錯誤很容易被忽略,事實上等效於

[sql]  view plain  copy
 
  1. select b, c, count(*) from a_b_c  
  2. group by b, c  
  3. having count(1)  
  4.    or count(1);  


        為什么?因為(b > 1)是一個布爾值,根本不是你想要的結果。你要的是

[sql]  view plain  copy
 
  1. select b, c, count(*) from a_b_c  
  2. group by b, c  
  3. having count(distinct b) > 1  
  4.    or count(distinct c) > 1;  


        返回空結果。很顯然,因為沒有重復的{b,c}。這人試了很多其他的OR和AND的組合,用來分組的是一個字段,計算大小的是另一個字段,像這樣

[sql]  view plain  copy
 
  1. select b, count(*) from a_b_c group by b having count(distinct c) > 1;  
  2. +------+----------+  
  3. | b    | count(*) |  
  4. +------+----------+  
  5. |    1 |        3 |  
  6. |    2 |        3 |  
  7. |    3 |        3 |  
  8. +------+----------+  


        沒有一個能夠找出全部的重復行。而且最令人沮喪的是,對於某些情況,這種語句是有效的,如果錯誤地以為就是這么寫法,然而對於另外的情況,很可能得到錯誤結果。

        事實上,單純用GROUP BY 是不可行的。為什么?因為當你對某一字段使用group by時,就會把另一字段的值分散到不同的分組里。對這些字段排序可以看到這些效果,正如分組做的那樣。首先,對b字段排序,看看它是如何分組的

 

a b c
7 1 1
8 1 2
9 1 3
10 2 1
11 2 2
12 2 3
13 3 1
14 3 2
15 3 3

 

        當你對b字段排序(分組),相同值的c被分到不同的組,因此不能用COUNT(DISTINCT c)來計算大小。COUNT()之類的內部函數只作用於同一個分組,對於不同分組的行就無能為力了。類似,如果排序的是c字段,相同值的b也會分到不同的組,無論如何是不能達到我們的目的的。

幾種正確的方法

        也許最簡單的方法是分別對某個字段查找重復行,然后用UNION拼在一起,像這樣:

[sql]  view plain  copy
 
  1. select b as value, count(*) as cnt, 'b' as what_col  
  2.  from a_b_c group by b having count(*) > 1  
  3.  union  
  4.  select c as value, count(*) as cnt, 'c' as what_col  
  5.  from a_b_c group by c having count(*) > 1;  
  6. +-------+-----+----------+  
  7. | value | cnt | what_col |  
  8. +-------+-----+----------+  
  9. |     1 |   3 | b        |  
  10. |     2 |   3 | b        |  
  11. |     3 |   3 | b        |  
  12. |     1 |   3 | c        |  
  13. |     2 |   3 | c        |  
  14. |     3 |   3 | c        |  
  15. +-------+-----+----------+  


        輸出what_col字段為了提示重復的是哪個字段。另一個辦法是使用嵌套查詢:

[sql]  view plain  copy
 
  1. select a, b, c from a_b_c  
  2.  where b in (select b from a_b_c group by b having count(*) > 1)  
  3.     or c in (select c from a_b_c group by c having count(*) > 1);  
  4. +----+------+------+  
  5. | a  | b    | c    |  
  6. +----+------+------+  
  7. |  7 |    1 |    1 |  
  8. |  8 |    1 |    2 |  
  9. |  9 |    1 |    3 |  
  10. | 10 |    2 |    1 |  
  11. | 11 |    2 |    2 |  
  12. | 12 |    2 |    3 |  
  13. | 13 |    3 |    1 |  
  14. | 14 |    3 |    2 |  
  15. | 15 |    3 |    3 |  
  16. +----+------+------+  


        這種方法的效率要比使用UNION低許多,並且顯示每一重復的行,而不是重復的字段值。還有一種方法,將自己跟group的嵌套查詢結果聯表查詢。寫法比較復雜,但對於復雜的數據或者對效率有較高要求的情況,是很有必要的。

[sql]  view plain  copy
 
  1. select a, a_b_c.b, a_b_c.c  
  2. from a_b_c  
  3.    left outer join (  
  4.       select b from a_b_c group by b having count(*) > 1  
  5.    ) as b on a_b_c.b = b.b  
  6.    left outer join (  
  7.       select c from a_b_c group by c having count(*) > 1  
  8.    ) as c on a_b_c.c = c.c  
  9. where b.b is not null or c.c is not null  

 

以上方法可行,我敢肯定還有其他的方法。如果UNION能用,我想會是最簡單不過的了。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM