postgresql數據庫去重方法


數據庫去重有很多方法,下面列出目前理解與使用的方法

 

第一種

通過group by分組,然后將分組后的數據寫入臨時表然后再寫入另外的表,對於沒有出現再group by后面的field可以用函數max,min提取,效率較高
--適合情況:這種情況適合重復率非常高的情況,一般來說重復率超過5成則可以考慮用這個方法
--優點:對於重復率高的數據集的去重,十分推薦用這種方法
--缺點:uuid不能用max或min提取,如果需要去重的數據集中包含uuid則十分尷尬


create temp table tmp_data1 as
select [field1],[field2]...,max(field_special),min(field_special) from group by [field1],[field2]...;

insert into [table] select * from tmp_data1;

 


第二種

通過union去除完全重復的行,效率較高
--適合情況:這種方法只適合去除完全重復的行


select * from table1
union
select * from table1;

 

 

 

第三種

通過group by加id加not in,即先用group by分組,然后取出該分組下最大或最小的id組成集合,然后配合not in過濾掉重復的數據,效率很低,可以嘗試配合臨時表(測試發現依舊很慢)

--適合情況:由於該種方法效率很低,所以不推薦使用,如果數據量不大的情況下可以用這種方法,數據量只要上了100萬就會很慢很慢


delete from [table] where id not in (select max(id) from table1 group by [field1],[field2]...);

 


第四種

通過group by加having加in,即先用group by分組,然后用having count(*)>1取出分組數量大於1的行(即重復的行),然后用in刪除重復行,效率較高
--適合情況:一條數據大概只有一到兩三條重復,這種方法一次只能刪除重復數據的一條,如果有些數據有幾百次重復那就會累死,其實也可以使用函數做一個循環,但這樣的效率就不高了


delete from [table] where id in (select max(id) from [table] group by [field1],[field2]... having count(*)>1);

 

 

第五種

使用窗口函數加id,即可以使用窗口函數將數據分組,並將每個分組按行排號,並將行號與id(唯一id)存入一個集合里,這樣就可以根據這個集合來取處重復行的id,即通過行號>1,
-- 然后根據id刪除重復行,效率很高(100萬數據,重復9萬,時間: 14.596s)
--適合情況:該種方法效率很高,特別推薦使用,但需要了解窗口函數以及其中的一些關鍵詞的意義

--row_number() 為返回的記錄定義個行編號
--over 與row_number()函數配套使用
--partition by [field1],[field2]... 根據指定的字段分組


delete from [table] where id in (select id from (select row_number() over (partition by [field1],[field2]...), id from [table]) as t where t.row_number>1);

 


第六種,對於不同的情況,不同的數據量級,可以配合使用以上五種方法,靈活使用。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM