https://www.kaggle.com/c/santander-value-prediction-challenge
在kaggle該題中,需要通過所給的匿名變量來預測target值
feature比較多,所以通過降維來查看訓練集和測試集的分布情況

1.訓練分類器划分測試集和訓練集
我們把訓練集的y設置成1,測試集的設置成0
通過feature訓練一個分類器(我們當時采用了最簡單的分類器邏輯回歸),用於訓練集和測試集的划分
通過改分類器我們可以得到樣本是測試集的概率
(此處有問題:由於測試集較多,樣本不平衡,產生誤差)
2.partA:
基於測試集概率較高的來訓練一個回歸器A
3.partB:
基於測試集概率較低的來訓練一個回歸器B
4.計算結果
prediction = coeff*(partA) + (1-coeff)*partB
此處coeff = alpha*(Pr(is_test|X) + beta,且alpha和beta需要進行多次調試。
