在實際中,訓練模型用的數據並不是均衡的,在一個多分類問題中,每一類的訓練樣本並不是一樣的,反而是差距很大。比如一類10000,一類500,一類2000等。解決這個問題的做法主要有以下幾種:
欠采樣:就是把多余的樣本去掉,保持這幾類樣本接近,在進行學習。(可能會導致過擬合)
過采樣:就是增加比較少樣本那一類的樣本數量,比如你可以收集多一些數據,或者對數據增加噪聲,如果是圖像還可以旋轉,裁剪,縮放,平移等,或者利用PCA增加一些樣本,等方法
第三種:就是直接采用不均衡數據進行訓練,可以在代價函數那里需要增加樣本權重,用來平衡這個問題,也就是類別數量少的那一類代價就高,權重就比較大。在評價模型好壞的時候也需要考慮樣本權重問題。