訓練集(train set) 驗證集(validation set) 測試集(test set)
一, 訓練樣本和測試樣本
訓練樣本的目的是 數學模型的參數,經過訓練之后,可以認為你的模型系統確立了下來。
一般訓練樣本和測試樣本相互獨立,使用不同的數據。
在有監督(supervise)的機器學習中,數據集常被分成2~3個,即:訓練集(train set) 驗證集(validation set) 測試集(test set)。
http://blog.sina.com.cn/s/blog_4d2f6cf201000cjx.html
顯然,
training set 是用來訓練模型或確定模型參數的,如ANN中權值等;
validation set 是用來做模型選擇(model selection),即做模型的最終優化及確定的,如ANN的結構;
test set 則純粹是為了測試已經訓練好的模型的推廣能力。當然,test set這並不能保證模型的正確性,他只是說相似的數據用此模型會得出相似的結果。
但實際應用中,一般只將數據集分成兩類,即training set 和test set,大多數文章並不涉及validation set。