在機器學習中我們經常會遇到一個比較讓人頭疼的問題,就是樣本類別比例失衡,在我第一次參加的Kaggle的比賽中,是一個而分類問題,給定的訓練集樣本中正負樣本的比例大致達到驚人的1:1600。
通過網上搜集資料,其實針對這樣的情況解決辦法可以分為三種:
第一種:
將正向樣本進行重復混入訓練樣本中
因為訓練的指引來自損失函數,損失函數的影響因素分別來自 1錯分為0 和0錯分為1 ,當通過重復正向樣本增加比例后,相當於增加了在訓練時對1錯判為0的權重,也就增加了損失函數的修正性。
第二種:
增加損失函數中正樣錯判的權重:
原理與第一種做法原理類似
第三種:
bagging模式:
具體做法為,例如正負樣本比例為1:10 ,將負樣本分為9份,每一份負樣本與正樣本合並為一個正負比例為1:1的訓練樣本,對9個訓練樣本集進行分別的訓練,得到9個模型,然后用9個模型進行分別的預測並將各自的結果綜合決策出最終的訓練結果。