1.決策樹和LR會使結果偏向與訓練集多的類別,訓練集少的類別會當成噪音或者被忽視
2.沒有很好的衡量不平衡問題的評價方法。
1. 重采樣 resample
a. Random under-sampling 隨機刪除類別多的數據集
i. 運行時間和占用內存少
ii. 會忽略掉有用的信息,建立規則分類是的有用信息
iii. 隨機采樣是數據集的一個biased sample 不能很好的代表整體,結果也不准確
b. Random over-sampling 隨機復制少數類別樣表,增加少數樣本的權重
i. 和下采樣不同,這個沒有信息損失
ii. 增加了過擬合的可能性,對少數樣本會過擬合
c. Cluster-based under sampling 每個類別分別進行K-means 聚類,
其中在數據預處理步驟中使用聚類技術,多數類中的簇的數量被設置為等於少數類中的數據點的數量。第一種策略使用聚類中心來表示多數類,而第二種策略使用聚類中心的最近鄰居。 (第二中有用)
d. 基於聚類的上采樣:
對分別對正負類進行采樣,多數類分的類別多,然后從不同類別中進行采樣,使每個類別數量一樣,任意過擬合
e. Informed over sampling : 生成少數類別數據集
i. 可避免精確復制少數數據集帶來的過擬合,對有用信息沒有損失

i. SMOTE(Synthe Minority over-samling Technique):對高維數據不是很有效

工具包
https://imbalanced-learn.readthedocs.io/en/stable/
