21/8/27 讀書筆記

21/8/27 讀書筆記
- 程序員的數學2
  - 最小二乘法
  - 主成分分析

程序員的數學2

最小二乘法

最小二乘法是回歸分析領域最為基礎的手段。

我們通常認為解決最小二乘法問題等價於解決：

\[試求a，b，使得\sum_{i=1}^n(\check y_i-(ax_i+b))^2最小 \]

為什么我們只要讓觀測值和計算值差的平方的和最小，就能保證統計意義上的合理性呢？

這其實是一個值得思考的問題，背后的理論基礎是最大似然估計。

我們假設噪聲\(\bold W\)呈正態分布：

\[\boldsymbol{Y}=\bold C \boldsymbol{a}+\boldsymbol{W}, \quad \boldsymbol{Y} \equiv\left(\begin{array}{c} y_{1} \\ \vdots \\ y_{n} \end{array}\right), \bold C \equiv\left(\begin{array}{cc} x_{1} & 1 \\ \vdots & \vdots \\ x_{n} & 1 \end{array}\right), \boldsymbol{a} \equiv\left(\begin{array}{l} a \\ b \end{array}\right), \boldsymbol{W} \equiv\left(\begin{array}{c} W_{1} \\ \vdots \\ W_{n} \end{array}\right) \sim \mathrm{N}\left(\boldsymbol{o}, \sigma^{2} I\right) \]

因此我們可以知道\(\bold Y\)的概率密度函數滿足：

\[f_{\bold Y}(\bold y)=const\times\exp(-\frac{1}{2\sigma^2}||\bold y-\bold C\bold a||^2) \]

最大似然估計促使我們去尋找使得\(f_{\bold Y}(\bold y)\)取值最大的參數\(\bold a = \left(\begin{array}{l} a \\ b \end{array}\right)\)，因此我們用觀測值\(\check y\)代替\(y\)，讓\(||\bold y-\bold C\bold a||^2=\sum_{i=1}^n(\check y_i-(ax_i+b))^2\)盡可能小。

注意這里我們假設了噪聲呈正態分布，這是一個普遍的考量。

為了解決這個問題，我們可以通過求偏微分來獲得：

\[\frac{\partial h}{\partial a}=0 \text { 且 } \quad \frac{\partial h}{\partial b}=0 \]

計算后可得：

\[-2 \sum_{i=1}^{n}\left(\check{y}_{i}-\left(a x_{i}+b\right)\right) x_{i}=0 \quad \text { 且 } \quad-2 \sum_{i=1}^{n}\left(\check{y}_{i}-\left(a x_{i}+b\right)\right)=0 \]

整理后：

\[\left(\sum_{i=1}^{n} x_{i}^{2}\right) a+\left(\sum_{i=1}^{n} x_{i}\right) b=\left(\sum_{i=1}^{n} \check{y}_{i} x_{i}\right) \text { 且 }\left(\sum_{i=1}^{n} x_{i}\right) a+n b=\left(\sum_{i=1}^{n} \check{y}_{i}\right) \]

這實際相當於解一個方程組，這個方程組也可以表示為\(C^TC\bold a=C^T\check {\bold y}\)，其也稱為正則方程組。

從幾何的角度看，我們不妨把\(a\bold x+b\)看做兩個向量\((\bold x,\bold e)\)組成的平面\(P\)上的一個向量，\(\bold y\)視作這個平面外的一個向量，因此\(||\bold y-(a\bold x+b)||^2\)實際上就是\(y\)向量到平面\(P\)的垂線的長度，我們的目標是就是將這個垂線長度盡可能減小，使得\(\bold y\)更加接近平面\(P\)。

\[\bold x=\left(\begin{matrix}x_1\\.\\.\\x_n\end{matrix}\right),\bold e=\left(\begin{matrix}1\\.\\.\\1\end{matrix}\right) \]

主成分分析

主成分分析PCA是多變量分析的常用手段。

它的理論基礎在於一個高維數據不會在其空間內均勻分布，而是通常有規律地沿着一個特定的方向分布。PCA的目的就是找到這個特定的方向，然后將所有數據投影到這個方向上，降低數據維度，同時盡可能保留原有的分布信息。

我們之前已經說到，可以用橢圓來表示協方差矩陣。對於高維橢圓體，其具有多條主軸，其中大多數主軸都很短，從效果上看PCA就是沿最短的主軸方向對橢圓體進行壓縮。而更近一步，我們知道主軸的長度與當前協方差矩陣的特征值一一對應。

PCA的步驟為：

找到協方差矩陣的所有特征值，並計算出其對應的長度為1的特征向量\(\bold p_i\)
將所有\(\bold p_i\)按對應特征值從大到小排序，得到\(\bold q_i\)，此時稱為第i主成分向量
我們保存前k個主成分向量
對於一個高維向量\(\bold x\)，我們得到\(\bold x\)的第i主成分\(z_i=\bold q_i\cdot \bold x\)
投影后的向量\(\bold y = z_1\bold q_1+...+z_k\bold q_k\)

從幾何意義上看，投影損失的信息正比於\(\bold x\)到前k個特征向量組成的平面上的垂線長度。

從統計意義上看，投影損失的信息恰等於被壓縮的橢圓體主軸的總長度，即對應特征值之和。

我們定義PCA的累計貢獻率為:

\[\frac{\lambda_{1}+\cdots+\lambda_{k}}{\lambda_{1}+\cdots+\lambda_{k}+\lambda_{k+1}+\cdots+\lambda_{m}} \]

其表現壓縮過程所保留的信息的程度。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 最小二乘法理解最小二乘法最小二乘法最小二乘法最小二乘法最小二乘法 PCA(主成分分析)的簡單理解 PCA主成分分析理解均值和最小二乘法最小二乘法思想