模型選擇和訓練/驗證/測試數據集

本文轉載自查看原文 2018-10-31 19:14 1297 machine learning 相關

對於過擬合現象

\[{h_\theta }\left( x \right) = {\theta _0} + {\theta _1}x + {\theta _2}{x^2} + {\theta _3}{x^3} + {\theta _4}{x^4}\]

Once parameters θ₀,θ₁,θ₂,θ₃,θ₄ were fit to some set of data (training set), the error of the parameters as measured on that data (the training error J(θ)) is likely to be lower than the actual generalization error.

一旦參數θ₀,θ₁,θ₂,θ₃,θ₄適合某些數據集（訓練集），在該數據上測量的參數誤差（訓練誤差J（θ））可能低於實際值泛化錯誤（在測試集上的錯誤）。

假設又如下模型

\[\begin{array}{l}
{h_\theta }\left( x \right) = {\theta _0} + {\theta _1}x\\
{h_\theta }\left( x \right) = {\theta _0} + {\theta _1}x + {\theta _2}{x^2}\\
.\\
.\\
.\\
{h_\theta }\left( x \right) = {\theta _0} + {\theta _1}x + ... + {\theta _{10}}{x^{10}}
\end{array}\]

該選擇哪一個？

一般情況下我們會用以下步驟選擇模型

運用訓練集訓練模型得到參數θ
將不同模型得到的假設函數運用於測試集
找出在測試集中誤差最小的模型

這樣做的問題在於你的模型選擇依賴於測試集，你是根據模型對於測試集的表現選擇模型的，這樣做對於新的數據表現如何並不能很好的保障。

解決方法是

將數據分為訓練集（Training set）60%、交叉驗證集（Cross validation set）20%、測試集（Test set）20%。

運用交叉驗證集去選取模型，而不是測試集。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 關於數據集的划分--訓練集、驗證集和測試集【筆記】過擬合和欠擬合以及為什么要對分為訓練數據集和測試數據集機器學習：訓練數據集、測試數據集 Alink漫談(七) : 如何划分訓練數據集和測試數據集深度學習 | 測試數據集（Test Set) 和驗證數據集 (Validation Set) 之間的區別 10-Python實現數據集划分（訓練集/驗證集/測試集） csv數據集按比例分割訓練集、驗證集和測試集，即分層抽樣的方法【貓狗數據集】划分驗證集並邊訓練邊驗證模型使用的數據集如何保證驗證集和測試集的分布保持一致圖像拼接融合測試數據集