機器學習中樣本不均衡的問題

本文轉載自查看原文 2018-04-25 11:34 867 機器學習/ 樣本不均衡

在實際中，訓練模型用的數據並不是均衡的，在一個多分類問題中，每一類的訓練樣本並不是一樣的，反而是差距很大。比如一類10000，一類500，一類2000等。解決這個問題的做法主要有以下幾種：

欠采樣：就是把多余的樣本去掉，保持這幾類樣本接近，在進行學習。（可能會導致過擬合）

過采樣：就是增加比較少樣本那一類的樣本數量，比如你可以收集多一些數據，或者對數據增加噪聲，如果是圖像還可以旋轉，裁剪，縮放，平移等，或者利用PCA增加一些樣本，等方法

第三種：就是直接采用不均衡數據進行訓練，可以在代價函數那里需要增加樣本權重，用來平衡這個問題，也就是類別數量少的那一類代價就高，權重就比較大。在評價模型好壞的時候也需要考慮樣本權重問題。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 處理樣本不均衡數據數據抽樣及樣本不均衡處理機器學習樣本不平衡處理 NLP（四十一）：解決樣本不均衡FocalLoss與GHM Python：SMOTE算法——樣本不均衡時候生成新樣本的算法 Bert文本分類實踐（三）：處理樣本不均衡和提升模型魯棒性trick One Class SVM 對於樣本不均衡處理思路——拿出白樣本建模，算出outlier，然后用黑去檢驗效果不均衡樣本的處理方式不均衡樣本集的重采樣機器學習套路 —— 樣本集的拆分（正樣本、負樣本）