機器學習中的訓練集、驗證集、測試集


訓練集 (Training set)

  用來訓練分類器中的參數,擬合模型。會使用超參數的不同取值,擬合出多個分類器,后續再結合驗證集調整模型的超參數。

驗證集 (Validation set)

  當通過訓練集訓練出多個模型后,為了能找出效果最佳的模型,使用各個模型對驗證集數據進行預測,並記錄模型准確率。選出效果最佳的模型所對應的超參數,即用來調整模型超參。

測試集 (Test set)

  通過訓練集和驗證集得出最優模型后,使用測試集進行模型預測。用來衡量該最優模型的性能和分類能力。即可以把測試集當做從來不存在的數據集,當已經確定模型參數后,使用測試集進行模型性能評價。

 

 

交叉驗證法 (Cross Validation)

  其基本思路如下:將訓練集划分為K份,每次采用其中K-1份作為訓練集,另外一份作為驗證集,驗證集上K次誤差的平均作為該模型的誤差。

  交叉驗證的作用就是嘗試利用不同的訓練集/驗證集划分來對模型做多組不同的訓練/驗證,來應對單獨測試結果過於片面以及訓練數據不足的問題。

  交叉驗證的目的是為了選擇不同的模型類型,而不是選擇具體模型的具體參數,模型類型選擇完成后,最終的具體參數由全部的訓練數據重新訓練得到。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM