樣本類別比例嚴重失衡


在機器學習中我們經常會遇到一個比較讓人頭疼的問題,就是樣本類別比例失衡,在我第一次參加的Kaggle的比賽中,是一個而分類問題,給定的訓練集樣本中正負樣本的比例大致達到驚人的1:1600。

通過網上搜集資料,其實針對這樣的情況解決辦法可以分為三種:

第一種:

   將正向樣本進行重復混入訓練樣本中

   因為訓練的指引來自損失函數,損失函數的影響因素分別來自 1錯分為0  和0錯分為1 ,當通過重復正向樣本增加比例后,相當於增加了在訓練時對1錯判為0的權重,也就增加了損失函數的修正性。

第二種:

   增加損失函數中正樣錯判的權重:

   原理與第一種做法原理類似

第三種:

   bagging模式:

   具體做法為,例如正負樣本比例為1:10 ,將負樣本分為9份,每一份負樣本與正樣本合並為一個正負比例為1:1的訓練樣本,對9個訓練樣本集進行分別的訓練,得到9個模型,然后用9個模型進行分別的預測並將各自的結果綜合決策出最終的訓練結果。

   

   

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM