驗證集與測試集的區別


驗證集與測試集的區別

驗證集 —— 是模型訓練過程中單獨留出的樣本集,它可以用於調整模型的超參數和用於對模型的能力進行初步評估。

測試集 —— 用來評估模最終模型的泛化能力。但不能作為調參、選擇特征等算法相關的選擇的依據。

 

 一個形象的比喻:

    訓練集-----------學生的課本;學生 根據課本里的內容來掌握知識。

    驗證集-----------作業,通過作業可以知道 不同學生學習情況、進步的速度快慢。

    測試集-----------考試,考的題是平常都沒有見過,考察學生舉一反三的能力。

  傳統上,一般三者切分的比例是:6:2:2,驗證集並不是必須的。

  那么為什么要測試集呢?

    a)訓練集直接參與了模型調參的過程,顯然不能用來反映模型真實的能力(防止課本死記硬背的學生擁有最好的成績,即防止過擬合)。

    b)驗證集參與了人工調參(超參數)的過程,也不能用來最終評判一個模型(刷題庫的學生不能算是學習好的學生)。

    c)所以要通過最終的考試(測試集)來考察一個學(模)生(型)真正的能力(期末考試)。

  但是僅憑一次考試就對模型的好壞進行評判顯然是不合理的,所以就要使用交叉驗證法。交叉驗證法的作用就是嘗試利用不同的訓練集/驗證集划分來對模型做多組不同的訓練/驗證,來應對單獨測試結果過於片面以及訓練數據不足的問題。(就像通過多次考試,才得知哪些學生是比較厲害的)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM