機器學習：什么是欠擬合和過擬合

本文轉載自查看原文 2018-05-10 18:07 1983 機器學習

1. 什么是欠擬合和過擬合

先看三張圖片，這三張圖片是線性回歸模型擬合的函數和訓練集的關系

類似的，對於邏輯回歸同樣也存在欠擬合和過擬合問題，如下三張圖

欠擬合問題，根本的原因是特征維度過少，導致擬合的函數無法滿足訓練集，誤差較大。

欠擬合問題可以通過增加特征維度來解決。

過擬合問題，根本的原因則是特征維度過多，導致擬合的函數完美的經過訓練集，但是對新數據的預測結果則較差。增加模型的復雜度，不要用簡單的線性回歸，適當的采用二次回歸，將訓練集合擴大，采集更多的數據。

解決過擬合問題，則有2個途徑：

回到前面過擬合例子, h(x) = θ0 + θ1x1 + θ2x2 + θ3x3 + θ4x4

從圖中可以看出，解決這個過擬合問題可以通過消除特征x3和x4的影響, 我們稱為對參數的懲罰, 也就是使得參數θ3, θ4接近於0。

最簡單的方法是對代價函數進行改造，例如

這樣在求解最小化代價函數的時候使得參數θ3, θ4接近於0。

正則化其實就是通過對參數θ的懲罰來影響整個模型

前面幾篇文章中，線性回歸的代價函數J(θ)表達式如下

正則化后，代價函數J(θ)表達式如下，注意j從1開始

注意λ值不能設置過大，否則會導致求出的參數除了θ0，其它θ1,θ2 ... θn值約等於0，導致預測函數h(x)出現極大偏差

我們的目標依然是求J(θ)最小值，我們還是用梯度下降算法和正規方程求解最小化J(θ)

對於正規方程來，需要修改等式如下

系數λ 所乘的矩陣為 (n+1)*(n+1)維

和線性回歸模型類型，邏輯回歸也可以通過正則化來解決過擬合問題。

邏輯回歸的代價函數J(θ)表達式如下

正則化邏輯回歸的代價函數，是在等式后加上一項，注意j從1開始

同樣的用梯度下降算法求解最小化J(θ)，也需要做改變

不同的是邏輯回歸模型中的預測函數 h(x)和線性回歸不同

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習之欠擬合和過擬合（一）機器學習判斷是過擬合還是欠擬合-學習曲線機器學習算法中的過擬合與欠擬合機器學習中的過擬合和欠擬合及交叉驗證 4-機器學習-多項式回歸+過擬合&欠擬合的處理、模型保存與加載機器學習-多項式回歸+過擬合&欠擬合的處理機器學習中數據量多少與模型過擬合欠擬合之間的關系機器學習之路：python 多項式特征生成PolynomialFeatures 欠擬合與過擬合深度學習（九）過擬合和欠擬合欠擬合和過擬合