機器學習筆記——最小二乘法

本文轉載自查看原文 2017-09-11 23:22 28679 Machine Learning

一. 簡介

首先來看百度百科對最小二乘法的介紹：最小二乘法（又稱最小平方法）是一種數學優化技術。它通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據，並使得這些求得的數據與實際數據之間誤差的平方和為最小。最小二乘法還可用於曲線擬合。其他一些優化問題也可通過最小化能量或最大化熵用最小二乘法來表達。

簡而言之，最小二乘法同梯度下降類似，都是一種求解無約束最優化問題的常用方法，並且也可以用於曲線擬合，來解決回歸問題。最小二乘法實質就是最小化“均方誤差”，而均方誤差就是殘差平方和的1/m(m為樣本數)，同時均方誤差也是回歸任務中最常用的性能度量。

二. 對於一元線性模型

如果以最簡單的一元線性模型來解釋最小二乘法。回歸分析中，如果只包括一個自變量和一個因變量，且二者的關系可用一條直線近似表示，這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量，且因變量和自變量之間是線性關系，則稱為多元線性回歸分析。對於二維空間線性是一條直線；對於三維空間線性是一個平面，對於多維空間線性是一個超平面...

對於一元線性回歸模型, 假設從總體中獲取了m組觀察值（X1，Y1），（X2，Y2）， …，（Xm，Ym）。對於平面中的這m個點，可以使用無數條曲線來擬合。要求樣本回歸函數盡可能好地擬合這組值。綜合起來看，這條直線處於樣本數據的中心位置最合理。選擇最佳擬合曲線的標准可以確定為：使總的擬合誤差（即總殘差）達到最小。有以下三個標准可以選擇：

（1）用“殘差和最小”確定直線位置是一個途徑。但可能會出現計算“殘差和”存在相互抵消的問題。
（2）用“殘差絕對值和最小”確定直線位置也是一個途徑。但絕對值的計算比較麻煩。
（3）最小二乘法的原則是以“殘差平方和最小”確定直線位置。用最小二乘法除了計算比較方便外，得到的估計量還具有優良特性。這種方法對異常值非常敏感。

最常用的是普通最小二乘法（ Ordinary Least Square，OLS）：所選擇的回歸模型應該使所有觀察值的殘差平方和達到最小。

在講最小二乘的詳情之前，首先明確兩點：1.我們假設在測量系統中不存在有系統誤差，只存在有純偶然誤差。比如體重計或者身高計本身有問題，測量出來的數據都偏大或者都偏小，這種誤差是絕對不存在的。（或者說這不能叫誤差，這叫錯誤）2.誤差是符合正態分布的，因此最后誤差的均值為0（這一點很重要) 。
明確了上面兩點以后，重點來了：為了計算β0,β1的值，我們采取如下規則：β0,β1應該使計算出來的函數曲線與觀察值的差的平方和最小。用數學公式描述就是

其中，y_ie表示根據y=β0+β1x估算出來的值，y_i是觀察得到的真實值。

為什么要用殘差的平方和最小？用差的絕對值不行么？
以下是一個相對靠譜的解釋：
我們假設直線對於坐標 Xi 給出的預測 f(Xi) 是最靠譜的預測，所有縱坐標偏離 f(Xi) 的那些數據點都含有噪音，是噪音使得它們偏離了完美的一條直線，一個合理的假設就是偏離路線越遠的概率越小，具體小多少，可以用一個正態分布曲線來模擬，這個分布曲線以直線對 Xi 給出的預測 f(Xi) 為中心，實際縱坐標為 Yi 的點 (Xi, Yi) 發生的概率就正比於 EXP[-(ΔYi)^2]。（EXP(..) 代表以常數 e 為底的多少次方）。
所以我們在前面的兩點里提到，假設誤差的分布要為一個正態分布，原因就在這里了。
另外說一點我自己的理解：從數學處理的角度來說，絕對值的數學處理過程，比平方和的處理要復雜很多。搞過機器學習的同學都知道，L1正則就是絕對值的方式，而L2正則是平方和的形式。L1能產生稀疏的特征，這對大規模的機器學習灰常灰常重要。但是L1的求解過程，實在是太過蛋疼。所以即使L1能產生稀疏特征，不到萬不得已，我們也還是寧可用L2正則，因為L2正則計算起來方便得多。。。

明確了前面的cost function以后，后面的優化求解過程反倒變得s容易了。
樣本的回歸模型很容易得出：