PS:做過一個天文圖像的分類項目(分三類,數量量級差別大),里面存在嚴重的分類不平衡問題,查閱后,類別不平衡主要有以下幾個方式處理。
1)采樣:
采樣法常分為上采樣和下采樣:上采樣是通過把少量數據類別的數據重復復制抽取的方法使各類別的數據比例維持在合理的比例,但是這樣做很容易造成過擬合。下采樣是通過從多數數據類中篩選出部分數據使各個類別的數據維持在合理的比例中,但是這樣的方法容易丟失關鍵數據,在數據量差別特別懸殊的情況下不宜采用。
2)加權:
加權法是通過對不同類別分類錯誤的目標添加不同權重的代價,即懲罰函數,使得不同類別的加權損失值近似,這樣模型才能更好的擬合數據集。但是懲罰函數的設計和選擇會影響數據集合本身的獨立同分布的假設,這違背了使用深度學習的初衷。
3)數據增強:
數據增強就是利用已有數據進行翻轉、平移、旋轉等來創造出更多的數據,使得神經網絡具有更好的泛化效果,這樣做既可以增加訓練的數據量,提高模型的泛化能力,也可以增加噪聲數據,提升模型的魯棒性。采用旋轉來增強數據集,如果不會破壞數據本身的特征,這樣操作可以增加數據多樣性,使神經網絡能夠學習到樣本的旋轉不變性,針對同一類型的數據即使旋轉不同的角度,也可以識別出它所屬於的類別。