訓練集，驗證集，測試集比例

本文轉載自查看原文 2019-07-01 11:23 6078 Machine Learning/ Deep Learning

當數據量比較小時，可以使用 7 ：3 訓練數據和測試數據，或者 6：2 : 2 訓練數據，驗證數據和測試數據。

(西瓜書中描述常見的做法是將大約 2/3 ~ 4/5 的樣本數據用於訓練，剩余樣本用於測試）

當數據量非常大時，可以使用 98 : 1 : 1 訓練數據，驗證數據和測試數據。

傳統機器學習階段（數據集在萬這個數量級），一般分配比例為6：2：2。

而大數據時代，這個比例就不太適用了。因為百萬級的數據集，即使拿1%的數據做test也有一萬之多，已經足夠了。可以那更多的數據做訓練。因此常見的比例可以達到98：1：1 ，甚至可以達到99.5：0.3：0.2等。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 csv數據集按比例分割訓練集、驗證集和測試集，即分層抽樣的方法關於訓練集,驗證集,測試集的划分驗證集，測試集，訓練集訓練集、驗證集和測試集區別制作訓練集和驗證集、測試集關於訓練集,驗證集,測試集的划分關於數據集的划分--訓練集、驗證集和測試集交叉驗證與訓練集、驗證集、測試集訓練集、驗證集、測試集以及交驗驗證的理解 python按設定比例划分訓練集和測試集代碼