訓練集,驗證集,測試集比例


當數據量比較小時,可以使用 7 :3 訓練數據和測試數據,或者 6:2 : 2 訓練數據,驗證數據和測試數據。

(西瓜書中描述常見的做法是將大約 2/3 ~ 4/5 的樣本數據用於訓練,剩余樣本用於測試)

當數據量非常大時,可以使用 98 : 1 : 1 訓練數據,驗證數據和測試數據。

 


 


傳統機器學習階段(數據集在萬這個數量級),一般分配比例為6:2:2

而大數據時代,這個比例就不太適用了。因為百萬級的數據集,即使拿1%的數據做test也有一萬之多,已經足夠了。可以那更多的數據做訓練。因此常見的比例可以達到98:1:1 ,甚至可以達到99.5:0.3:0.2等。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM