過度擬合問題

本文轉載自查看原文 2019-03-31 16:36 551 機器學習

欠擬合/高偏差（high bias）

過擬合與欠擬合也可以用 Bias 與 Variance 的角度來解釋，欠擬合會導致高 Bias ，過擬合會導致高 Variance ，所以模型需要在 Bias 與 Variance 之間做出一個權衡。

特征過多但是訓練集很小，就和容易出現過度擬合的問題。

過擬合的缺點就是不能夠很好地泛化到新樣本。

添加新的域特有特征和更多特征笛卡爾積，並更改特征處理所用的類型 (例如，增加 n 元大小)

減少使用的正則化數量

特征選擇：考慮使用更少的特征組合，減少 n 元大小。

模型選擇算法

增加使用的正則化數量。

正則化項即罰函數，該項對模型向量進行“懲罰”，從而避免單純最小二乘問題的過擬合問題。

對於線性回歸(的求解)，我們之前運用了兩種學習算法，一種基於梯度下降，一種基於正規方程。

梯度下降，如下：

正規方程，如下：

現在考慮 M（即樣本量），比 N（即特征的數量）小或等於N。

當只有較少的樣本，導致特征數量大於樣本數量，那么矩陣 X^TX 將是不可逆矩陣或奇異（singluar）矩陣，或者用另一種說法是這個矩陣是退化（degenerate）的，那么我們就沒有辦法使用正規方程來求出 θ 。

幸運的是，正規化也為我們解決了這個問題，具體的說只要正則參數是嚴格大於零，實際上，可以證明如下矩陣：

將是可逆的。因此，使用正則還可以照顧任何 X^TX 不可逆的問題。

所以，你現在知道如何實現嶺回歸，利用它，你就可以避免過度擬合，即使你在一個相對較小的訓練集里有很多特征。這應該可以讓你在很多問題上更好的運用線性回歸。

在接下來的視頻中，我們將把這種正則化的想法應用到 Logistic 回歸，這樣我們就可以讓 logistic 回歸也避免過度擬合，從而表現的更好。

Regularized Logistic Regression 實際上與 Regularized Linear Regression 是十分相似的。

同樣使用梯度下降：

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Machine Learning — 關於過度擬合（Overfitting） overfitting(過度擬合)的概念(轉) 過度擬合現象的解決方案關於過擬合的問題過擬合和欠擬合問題總結 tensorflow 2.0 學習（十）擬合與過擬合問題關於 Dropout 防止過擬合的問題深度學習—過擬合問題過度使用DBLINK做系統集成會帶來的問題技術團隊：問題被過度的誇大小題大做，你該怎么辦？