最小二乘法及推導

本文轉載自查看原文 2020-06-22 10:38 2351 線性代數/ 大地測量和測量平差

2021.10.25

用人話講明白線性回歸LinearRegression - 知乎 (zhihu.com)

以前

理解：

最小：理論值和觀測值之差的平方和最小。

參考：https://www.zhihu.com/search?type=content&q=最小二乘的本質

3 推廣

算術平均數只是最小二乘法的特例，適用范圍比較狹窄。而最小二乘法用途就廣泛。

比如溫度與冰淇淋的銷量：

$\begin{array}{c|c} \qquad\qquad&\qquad銷量\qquad\\\hline\color{red}{25^\circ}& 110 \\\hline\color{blue}{27^\circ}& 115 \\\hline\color{orange}{31^\circ}&155\\\hline \color{Goldenrod}{33^\circ}&160\\\hline\color{green}{35^\circ}&180\\\end{array}\\$

看上去像是某種線性關系：

可以假設這種線性關系為：

$f(x)=ax+b\\$

通過最小二乘法的思想：

上圖的 $i,x,y$ 分別為：

$\begin{array}{c|c|c}\qquad i\qquad&\qquad x\qquad&\qquad y\qquad\\\hline 1&25& 110 \\\hline2&27& 115 \\\hline3&31&155\\\hline 4&33&160\\\hline 5&35&180\\\end{array}\\$

總誤差的平方為：

$S_{\epsilon^2}=\sum (f(x_i)-y_i)^2=\sum (ax_i+b-y_i)^2\\$

不同的 $a,b$ 會導致不同的 $S_{\epsilon^2}$ ，根據多元微積分的知識，當：

$\begin{cases} \frac{\partial}{\partial a}S_{\epsilon^2}=2\sum (ax_i+b-y_i)x_i=0\\\quad\\\frac{\partial}{\partial b}S_{\epsilon^2}=2\sum (ax_i+b-y_i)=0\end{cases}\\$

這個時候 $S_{\epsilon^2}$ 取最小值。

對於 $a,b$ 而言，上述方程組為線性方程組，用之前的數據解出來：

$\begin{cases} a\approx 7.2\\\quad\\ b\approx -73\end{cases}\\$

也就是這根直線：

其實，還可以假設：

$f(x)=ax^2+bx+c\\$

在這個假設下，可以根據最小二乘法，算出 $a,b,c$ ，得到下面這根紅色的二次曲線：

同一組數據，選擇不同的 $f(x)$ 【此處尋找f(x)意味着選擇一個數學模型，如選擇1次函數，2次函數，還是3次函數...】，通過最小二乘法可以得到不一樣的擬合曲線（出處）：

不同的數據，更可以選擇不同的 $f(x)$ ，通過最小二乘法可以得到不一樣的擬合曲線：

$f(x)$ 也不能選擇任意的函數，還是有一些講究的，這里就不介紹了。

鏈接：https://www.zhihu.com/question/37031188/answer/411760828

1：最小二乘法的原理與要解決的問題

最小二乘法是由勒讓德在19世紀發現的，形式如下式：

$標函數 = \sum（觀測值-理論值）^2\\$
觀測值就是我們的多組樣本，理論值就是我們的假設擬合函數。目標函數也就是在機器學習中常說的損失函數，我們的目標是得到使目標函數最小化時候的擬合函數的模型。舉一個最簡單的線性回歸的簡單例子，比如我們有 $m$ 個只有一個特征的樣本： $(x_i, y_i)(i=1, 2, 3...,m)$

樣本采用一般的 $h_{\theta}(x)$ 為 $n$ 次的多項式擬合， $h_{\theta}(x)=\theta_0+\theta_1x+\theta_2x^2+...\theta_nx^n,\theta(\theta_0,\theta_1,\theta_2,...,\theta_n)$ 為參數

最小二乘法就是要找到一組 $\theta(\theta_0,\theta_1,\theta_2,...,\theta_n)$ 使得 $\sum_{i=1}^n(h_{\theta}(x_i)-y_i)^2$ (殘差平方和) 最小，即，求 $min\sum_{i=1}^n(h_{\theta}(x_i)-y_i)^2$

2 ：最小二乘法的矩陣法解法

最小二乘法的代數法解法就是對 $\theta_i$ 求偏導數，令偏導數為0，再解方程組，得到 $\theta_i$ 。矩陣法比代數法要簡潔，下面主要講解下矩陣法解法，這里用多元線性回歸例子來描：

假設函數 $h_{\theta}(x_1,x_2,...x_n)=\theta_0+\theta_1x_1+...+\theta_nx_n$ 的矩陣表達方式為：

$h_{\theta}(\mathbf{x})=\mathbf{X}\theta\\$
其中，假設函數 $h_{\theta}(\mathbf{x})=\mathbf{X}\theta$ 為 $m\times1$ 的向量, $\theta$ 為 $n\times1$ 的向量，里面有 $n$ 個代數法的模型參數。 $X$ 為 $m\times n$ 維的矩陣。 $m$ 代表樣本的個數， $n$ 代表樣本的特征數。

損失函數定義為 $J(\theta)=\frac{1}{2}(\mathbf{X}\theta-\mathbf{Y})^T(\mathbf{X}\theta-\mathbf{Y})$ ，其中 $\mathbf{Y}$ 是樣本的輸出向量，維度為 $m\times 1$ 。 $\frac{1}{2}$ 在這主要是為了求導后系數為1，方便計算。

根據最小二乘法的原理，我們要對這個損失函數對 $\theta$ 向量求導取0。結果如下式：

$\frac{\partial }{\partial \theta}J(\theta)=\mathbf{X}^T(\mathbf{X}\theta-\mathbf{Y})=0\\$
對上述求導等式整理后可得：

$\theta=(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{Y}\\$

3：最小二乘法的幾何解釋

先說結論：最小二乘法的幾何意義是高維空間中的一個向量在低維子空間的投影。

考慮這樣一個簡單的問題，求解二元一次方程組：

$\left\{\begin{matrix} x_1+x_2=3\leftarrow a\\ -x_1+x_2=1\leftarrow b \end{matrix}\right.\\$
方程組的解也就是直線$a$與$b$的交點，並且很容易算出 $x_1=1，x_2=2$ .它的矩形形式：

$\begin{bmatrix}1\\ -1\end{bmatrix}\times x_1+\begin{bmatrix}1\\ 1\end{bmatrix}\times x_2=b\Leftrightarrow a_1\times x_1+a_2\times x_2=b\\$
表示 $x_1$ 倍的向量 $a_1$ 加上 $x_2$ 倍的向量 $a_2$ 等於向量 $b$ 。或者說， $b$ 是向量 $a_1$ 與 $a_2$ 的線性組合。

可以看到，1倍的 $a_1$ 加上2倍的 $a_2$ 既是 $b$ ，而1和2正是我們的解。而最小二乘所面臨的問題遠不止兩個點，拿三個點來說吧。（0,2）,（1,2）,（2,3）

假設我們要找到一條直線 $y=kx+b$ 穿過這三個點（雖然不可能），為表述方便，用 $x_1$ 代替 $k$ ， $x_2$ 代替 $b$ ：

$\left\{\begin{matrix}1\times k +b=2\\ 0\times k +b=2\\ 2\times k +b=3\end{matrix}\right.\Leftrightarrow \left\{\begin{matrix}1\times x_1 +x_2=2\\ 0\times x_1 +x_2=2\\ 2\times x_1 +x_2=3\end{matrix}\right.\Leftrightarrow \begin{bmatrix}1 &1 \\ 0 &1 \\ 2 &1 \end{bmatrix}\begin{bmatrix} x_1\\ x_2\end{bmatrix}=\begin{bmatrix}2\\ 2\\ 3\end{bmatrix}\Leftrightarrow A\times x=b\\$
進一步的：

$\begin{bmatrix}1\\ 0\\ 2\end{bmatrix}\times x_1+\begin{bmatrix}1\\ 1\\ 1 \end{bmatrix}\times x_2=\begin{bmatrix}2\\2\\3\end{bmatrix}\Leftrightarrow a_1\times x_1 + a_2\times x_2=b\\$
向量 $b$ 是向量 $a_1$ 與 $a_2$ 的線性表示。用圖形表示：

作圖之后，我們驚訝的發現，無論我們怎樣更改 $a_1$ 和 $a_2$ 的系數都不可能得到b，因為 $a_1$ 與 $a_2$ 的線性組合成的向量只能落在它們組成的子空間S里面，也就是說，向量 $b$ 不在平面 $S$ 上，雖然我們找不到這樣的向量，但在 $S$ 上找一個比較接近的可以吧。很自然的想法就是將向量 $b$ 投影在平面 $S$ 上，投影在 $S$ 上的向量 $P$ 就是 $b$ 的近似向量，並且方程 $A\hat{x}=P$ 是有解的。

這個誤差最小的時候就是 $e$ 正交於平面 $S$ ，也正交與 $S$ 中的向量 $a_1，a_2$ （矩陣 $A$ 的列向量），即點乘為0， $a_1^Te=0$ ， $a_2^Te=0$ 矩陣表示：

所以，我們可以得出，它的幾何意義就是高維空間中的一個向量在低維子空間上的投影。

4：最小二乘法的局限性和適用場景

從上面可以看出，最小二乘法適用簡潔高效，比梯度下降這樣的迭代法似乎方便很多。但是這里我們就聊聊最小二乘法的局限性。

首先，最小二乘法需要計算 $X^TX$ 的逆矩陣，有可能它的逆矩陣不存在，這樣就沒有辦法直接用最小二乘法了，此時梯度下降法仍然可以使用。當然，我們可以通過對樣本數據進行整理，去掉冗余特征。讓 $X^TX$ 的行列式不為0，然后繼續使用最小二乘法。

第二，當樣本特征 $n$ 非常的大的時候，計算 $X^TX$ 的逆矩陣是一個非常耗時的工作（ $n\times n$ 的矩陣求逆），甚至不可行。此時以梯度下降為代表的迭代法仍然可以使用。那這個 $n$ 到底多大就不適合最小二乘法呢？如果你沒有很多的分布式大數據計算資源，建議超過10000個特征就用迭代法吧。或者通過主成分分析降低特征的維度后再用最小二乘法。

第三，如果擬合函數不是線性的，這時無法使用最小二乘法，需要通過一些技巧轉化為線性才能使用，此時梯度下降仍然可以用。

鏈接：https://zhuanlan.zhihu.com/p/38128785

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 最小二乘法推導最小二乘法模型的推導原理最小二乘法-公式推導最小二乘法最小二乘法最小二乘法最小二乘法最小二乘法最小二乘法公式推導及Python實現最小二乘法求回歸直線方程的推導