最近在整理數據形成信用報告,發現重復的數據真的多,梳理都好久。我就做個筆記把去掉重復數據的方法整理下來。方便我后期查閱。
我將我目前已知的兩種去重方法分為:視圖去重和表去重。原理就是有無rowid這個字段。
單字段查重
表A:
ID | name | uscc | money |
---|---|---|---|
1 | 張飛 | 11111 | 100 |
2 | 關羽 | 22222 | 100 |
3 | 劉備 | 33333 | 300 |
4 | 馬超 | 44444 | 400 |
5 | 張飛 | 55555 | 100 |
6 | 馬超 | 44444 | 400 |
這時候,我們來進行去重:如果只根據一個字段來去重的話,根據name字段,我們看下重復的有兩條數據為‘張飛’和‘馬超’
這個時候我們用最簡單的方法rowid。通俗易懂
select * from 表A where rowid in(
select max(rowid) from 表A group by NAME)
order by id;
id | name | uscc | money |
---|---|---|---|
1 | 張飛 | 11111 | 100 |
2 | 關羽 | 22222 | 100 |
3 | 劉備 | 33333 | 300 |
4 | 馬超 | 44444 | 400 |
這個時候,數據就如上圖所示。當name字段一樣的時候,取rowid最大的保留。
上面那個是去重語句,下面說下查詢表中的重復數據有哪些的語句
select * from 表A t,(select NAME from 表A group by NAME having count(1)>1) x
where t.NAME=x.NAME
order by t.id
id | name | uscc | money |
---|---|---|---|
1 | 張飛 | 11111 | 100 |
4 | 馬超 | 44444 | 400 |
5 | 張飛 | 55555 | 100 |
6 | 馬超 | 44444 | 400 |
但是呢,有的時候我們使用多張表整合的視圖,進行去重,這時候就沒有rowid了。我們要怎么去重呢?
select * from (select s.* from
(select t.*,row_number() over (partition by uscc order by uscc) as group_idx
from 表A t ) s
where s.group_idx = 1)
查詢結果為:
id | name | uscc | money |
---|---|---|---|
1 | 張飛 | 11111 | 100 |
2 | 關羽 | 22222 | 100 |
3 | 劉備 | 33333 | 300 |
4 | 馬超 | 44444 | 400 |
多字段查重
我們取NAME和USCC兩個字段進行查重,因為很多時候,數據判斷是否重復並不是一個字段就可以了,而且通過兩個,甚至是一整條數據是否完全相同進行查重,這時候我們就用下面這個語句
select * from (select s.* from
(select t.*,row_number() over (partition by name,uscc order by name,uscc) as group_idx
from 表A t ) s
where s.group_idx = 1)
查詢結果如下:
ID | name | uscc | money |
---|---|---|---|
1 | 張飛 | 11111 | 100 |
2 | 關羽 | 22222 | 100 |
3 | 劉備 | 33333 | 300 |
4 | 馬超 | 44444 | 400 |
5 | 張飛 | 55555 | 100 |
ID=6的‘馬超’這條數據進行了去重,因為這個條數據NAME和USCC都重復了,所以只取一條。
好記性不如爛筆頭,雖然當時還記得怎么寫,但是時間一長,就會忘記,如果沒有良好的記錄的習慣,下次還會百度找資料,很耽誤時間。