postgresql數據庫去重方法

本文轉載自查看原文 2018-11-15 18:57 4209 database

數據庫去重有很多方法，下面列出目前理解與使用的方法

第一種

通過group by分組，然后將分組后的數據寫入臨時表然后再寫入另外的表,對於沒有出現再group by后面的field可以用函數max,min提取，效率較高
--適合情況：這種情況適合重復率非常高的情況，一般來說重復率超過5成則可以考慮用這個方法
--優點：對於重復率高的數據集的去重，十分推薦用這種方法
--缺點：uuid不能用max或min提取，如果需要去重的數據集中包含uuid則十分尷尬

create temp table tmp_data1 as
select [field1],[field2]...,max(field_special),min(field_special) from group by [field1],[field2]...;

insert into [table] select * from tmp_data1;

第二種

通過union去除完全重復的行，效率較高
--適合情況：這種方法只適合去除完全重復的行

select * from table1
union
select * from table1;

第三種

通過group by加id加not in，即先用group by分組，然后取出該分組下最大或最小的id組成集合，然后配合not in過濾掉重復的數據，效率很低，可以嘗試配合臨時表（測試發現依舊很慢）

--適合情況：由於該種方法效率很低，所以不推薦使用，如果數據量不大的情況下可以用這種方法，數據量只要上了100萬就會很慢很慢

delete from [table] where id not in (select max(id) from table1 group by [field1],[field2]...);

第四種

通過group by加having加in，即先用group by分組，然后用having count(*)>1取出分組數量大於1的行（即重復的行），然后用in刪除重復行，效率較高
--適合情況：一條數據大概只有一到兩三條重復，這種方法一次只能刪除重復數據的一條，如果有些數據有幾百次重復那就會累死，其實也可以使用函數做一個循環，但這樣的效率就不高了

delete from [table] where id in (select max(id) from [table] group by [field1],[field2]... having count(*)>1);

第五種

使用窗口函數加id，即可以使用窗口函數將數據分組，並將每個分組按行排號，並將行號與id（唯一id）存入一個集合里，這樣就可以根據這個集合來取處重復行的id，即通過行號>1，
-- 然后根據id刪除重復行，效率很高（100萬數據，重復9萬，時間: 14.596s）
--適合情況：該種方法效率很高，特別推薦使用，但需要了解窗口函數以及其中的一些關鍵詞的意義

--row_number() 為返回的記錄定義個行編號
--over 與row_number()函數配套使用
--partition by [field1],[field2]... 根據指定的字段分組

delete from [table] where id in (select id from (select row_number() over (partition by [field1],[field2]...), id from [table]) as t where t.row_number>1);

第六種，對於不同的情況，不同的數據量級，可以配合使用以上五種方法，靈活使用。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據庫的幾種去重方法總結 mysql數據庫之去重 MongoDB數據庫去重 MongoDB數據庫去重 MySql數據庫去重淺談數據庫去重 Windows下Postgresql數據庫的下載與配置方法 Windows下PostgreSQL數據庫的下載與配置方法 Linux 上定時備份postgresql 數據庫的方法 PostgreSQL數據庫安裝