數據集的訓練集和測試集划分

本文轉載自查看原文 2020-12-02 14:26 578 keras深度學習技巧

留出法（hold-out）

留出法，直接將數據集

在使用留出法時，一般采用多次隨即划分、重復進行實驗評估后，取平均值作為留出法的評估結果。

交叉驗證法，或

在使用交叉驗證法時，通常要隨機使用不同划分重復

例如，10次10折交叉驗證法，進行了100次實驗。

特別地，當

自助法，對於包含

當m趨於無窮時，樣本在測試集中出現的概率趨於 $\lim_{m \to \infty} \big(1-\frac{1}{m}\big)^m=\frac{1}{e}lim(1−m1)m=e1自助法適用於數據集較小，難以有效划分訓練集和測試集的情況；$

自助法產生的數據集改變了初始數據集的分布，引入了估計偏差；

因此，在數據量足夠的情況下，一般使用留出法或交叉驗證法。

測試集至少包含30個樣例；

測試集/訓練集划分時，要盡可能保持數據分布的一致性，例如，分類任務中保持樣本類別比例相似（分層采樣，stratified sampling）。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 10-Python實現數據集划分（訓練集/驗證集/測試集）【貓狗數據集】划分驗證集並邊訓練邊驗證 sklearn數據集划分 Matlab划分測試集和訓練集隨機划分訓練集和測試集並保存【pytorch】使用cnn訓練及測試mnist數據集【R語言學習筆記】7. 將數據划分為訓練集、驗證集和測試集 csv數據集按比例分割訓練集、驗證集和測試集，即分層抽樣的方法 openface 訓練數據集 caffe訓練自己的數據集