學習曲線就是一種很好的工具,我經常使用學習曲線來判斷某一個學習算法是否處於偏
差、方差問題。學習曲線是學習算法的一個很好的合理檢驗(sanity check)。學習曲線是將
訓練集誤差和交叉驗證集誤差作為訓練集實例數量(𝑚)的函數繪制的圖表。
如果我們有100 行數據,我們從1 行數據開始,逐漸學習更多行的數據。思想是:
當訓練較少行數據的時候,訓練的模型將能夠非常完美地適應較少的訓練數據,但是訓練出
來的模型卻不能很好地適應交叉驗證集數據或測試集數據。


如何利用學習曲線識別高偏差/欠擬合:作為例子,我們嘗試用一條直線來適應下面的
數據,可以看出,無論訓練集有多么大誤差都不會有太大改觀:

也就是說在高偏差/欠擬合的情況下,增加數據到訓練集不一定能有幫助。
如何利用學習曲線識別高方差/過擬合:假設我們使用一個非常高次的多項式模型,並
且正則化非常小,可以看出,當交叉驗證集誤差遠大於訓練集誤差時,往訓練集增加更多數
據可以提高模型的效果。

也就是說在高方差/過擬合的情況下,增加更多數據到訓練集可能可以提高算法效果。
