當數據量比較小時,可以使用 7 :3 訓練數據和測試數據,或者 6:2 : 2 訓練數據,驗證數據和測試數據。
(西瓜書中描述常見的做法是將大約 2/3 ~ 4/5 的樣本數據用於訓練,剩余樣本用於測試)
當數據量非常大時,可以使用 98 : 1 : 1 訓練數據,驗證數據和測試數據。
傳統機器學習階段(數據集在萬這個數量級),一般分配比例為6:2:2。
而大數據時代,這個比例就不太適用了。因為百萬級的數據集,即使拿1%的數據做test也有一萬之多,已經足夠了。可以那更多的數據做訓練。因此常見的比例可以達到98:1:1 ,甚至可以達到99.5:0.3:0.2等。

