機器學習中樣本不均衡的問題


在實際中,訓練模型用的數據並不是均衡的,在一個多分類問題中,每一類的訓練樣本並不是一樣的,反而是差距很大。比如一類10000,一類500,一類2000等。解決這個問題的做法主要有以下幾種:

欠采樣:就是把多余的樣本去掉,保持這幾類樣本接近,在進行學習。(可能會導致過擬合)

過采樣:就是增加比較少樣本那一類的樣本數量,比如你可以收集多一些數據,或者對數據增加噪聲,如果是圖像還可以旋轉,裁剪,縮放,平移等,或者利用PCA增加一些樣本,等方法

第三種:就是直接采用不均衡數據進行訓練,可以在代價函數那里需要增加樣本權重,用來平衡這個問題,也就是類別數量少的那一類代價就高,權重就比較大。在評價模型好壞的時候也需要考慮樣本權重問題。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM