Imbalance data——數據不平衡問題


1.決策樹和LR會使結果偏向與訓練集多的類別,訓練集少的類別會當成噪音或者被忽視

2.沒有很好的衡量不平衡問題的評價方法。

1.    重采樣 resample

a.      Random under-sampling 隨機刪除類別多的數據集

                        i.        運行時間和占用內存少

                       ii.        會忽略掉有用的信息,建立規則分類是的有用信息

                      iii.        隨機采樣是數據集的一個biased sample 不能很好的代表整體,結果也不准確

b.    Random over-sampling 隨機復制少數類別樣表,增加少數樣本的權重

                        i.        和下采樣不同,這個沒有信息損失

                       ii.         增加了過擬合的可能性,對少數樣本會過擬合

c.    Cluster-based under sampling 每個類別分別進行K-means 聚類,

其中在數據預處理步驟中使用聚類技術,多數類中的簇的數量被設置為等於少數類中的數據點的數量。第一種策略使用聚類中心來表示多數類,而第二種策略使用聚類中心的最近鄰居。 (第二中有用)

d.    基於聚類的上采樣:

對分別對正負類進行采樣,多數類分的類別多,然后從不同類別中進行采樣,使每個類別數量一樣,任意過擬合

e.    Informed over sampling : 生成少數類別數據集

                        i.    可避免精確復制少數數據集帶來的過擬合,對有用信息沒有損失

i.    SMOTE(Synthe Minority over-samling Technique):對高維數據不是很有效

工具包

https://imbalanced-learn.readthedocs.io/en/stable/

 

 
 
 
 
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM