在有監督(supervise)的機器學習中,數據集一般被分成2~3個,即:訓練集(train set) 、驗證集(validation set) 測試集(test set)。
三個集合的定義為:
Training set:A set of examples used for learning, which is to fit the parameters [i.e., weights] of the classifier.
Validation set:A set of examples used to tune the parameters [i.e., architecture, not weights] of a classifier, for example to choose the number of hidden units in a neural network.
Test set:A set of examples used only to assess the performance [generalization] of a fully specified classifier.
||||
訓練集:學習樣本數據集,通過匹配一些參數來建立一個分類器。建立一種分類的方式,主要是用來訓練模型的。
驗證集:對學習出來的模型,調整分類器的參數,如在神經網絡中選擇隱藏單元數。驗證集還用來確定網絡結構或者控制模型復雜程度的參數。
測試集:主要是測試訓練好的模型的分辨能力(識別率等)、推廣能力。
一個典型的划分是訓練集占總樣本的50%,而其它各占25%,三部分都是從樣本中隨機抽取。
但實際應用中,一般只將數據集分成兩類,即training set 和test set,大多數文章並不涉及validation set。
【Reference】
1. http://blog.csdn.net/losteng/article/details/50766252
2. http://www.cnblogs.com/xfzhang/archive/2013/05/24/3096412.html