處理訓練集和測試集分布同的方法(對抗訓練)


https://www.kaggle.com/c/santander-value-prediction-challenge

在kaggle該題中,需要通過所給的匿名變量來預測target值

feature比較多,所以通過降維來查看訓練集和測試集的分布情況

1.訓練分類器划分測試集和訓練集

我們把訓練集的y設置成1,測試集的設置成0

通過feature訓練一個分類器(我們當時采用了最簡單的分類器邏輯回歸),用於訓練集和測試集的划分

通過改分類器我們可以得到樣本是測試集的概率

(此處有問題:由於測試集較多,樣本不平衡,產生誤差)

2.partA:

基於測試集概率較高的來訓練一個回歸器A

3.partB:
基於測試集概率較低的來訓練一個回歸器B

4.計算結果

prediction = coeff*(partA) + (1-coeff)*partB

此處coeff = alpha*(Pr(is_test|X) + beta,且alpha和beta需要進行多次調試。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM