21/8/27 讀書筆記 最小二乘法&主成分分析的深入理解


21/8/27 讀書筆記

程序員的數學2

最小二乘法

最小二乘法是回歸分析領域最為基礎的手段。

我們通常認為解決最小二乘法問題等價於解決:

\[試求a,b,使得\sum_{i=1}^n(\check y_i-(ax_i+b))^2最小 \]

為什么我們只要讓觀測值和計算值差的平方的和最小,就能保證統計意義上的合理性呢?

這其實是一個值得思考的問題,背后的理論基礎是最大似然估計

我們假設噪聲\(\bold W\)呈正態分布

\[\boldsymbol{Y}=\bold C \boldsymbol{a}+\boldsymbol{W}, \quad \boldsymbol{Y} \equiv\left(\begin{array}{c} y_{1} \\ \vdots \\ y_{n} \end{array}\right), \bold C \equiv\left(\begin{array}{cc} x_{1} & 1 \\ \vdots & \vdots \\ x_{n} & 1 \end{array}\right), \boldsymbol{a} \equiv\left(\begin{array}{l} a \\ b \end{array}\right), \boldsymbol{W} \equiv\left(\begin{array}{c} W_{1} \\ \vdots \\ W_{n} \end{array}\right) \sim \mathrm{N}\left(\boldsymbol{o}, \sigma^{2} I\right) \]

因此我們可以知道\(\bold Y\)的概率密度函數滿足:

\[f_{\bold Y}(\bold y)=const\times\exp(-\frac{1}{2\sigma^2}||\bold y-\bold C\bold a||^2) \]

最大似然估計促使我們去尋找使得\(f_{\bold Y}(\bold y)\)​取值最大的參數\(\bold a = \left(\begin{array}{l} a \\ b \end{array}\right)\)​,因此我們用觀測值\(\check y\)代替\(y\),讓\(||\bold y-\bold C\bold a||^2=\sum_{i=1}^n(\check y_i-(ax_i+b))^2\)​​​盡可能小。

注意這里我們假設了噪聲呈正態分布,這是一個普遍的考量。

為了解決這個問題,我們可以通過求偏微分來獲得:

\[\frac{\partial h}{\partial a}=0 \text { 且 } \quad \frac{\partial h}{\partial b}=0 \]

計算后可得:

\[-2 \sum_{i=1}^{n}\left(\check{y}_{i}-\left(a x_{i}+b\right)\right) x_{i}=0 \quad \text { 且 } \quad-2 \sum_{i=1}^{n}\left(\check{y}_{i}-\left(a x_{i}+b\right)\right)=0 \]

整理后:

\[\left(\sum_{i=1}^{n} x_{i}^{2}\right) a+\left(\sum_{i=1}^{n} x_{i}\right) b=\left(\sum_{i=1}^{n} \check{y}_{i} x_{i}\right) \text { 且 }\left(\sum_{i=1}^{n} x_{i}\right) a+n b=\left(\sum_{i=1}^{n} \check{y}_{i}\right) \]

這實際相當於解一個方程組,這個方程組也可以表示為\(C^TC\bold a=C^T\check {\bold y}\),其也稱為正則方程組。

從幾何的角度看,我們不妨把\(a\bold x+b\)​​​​​​​看做兩個向量\((\bold x,\bold e)\)​​​​​​​組成的平面\(P\)​​​​​​​上的一個向量,\(\bold y\)​​​​​​​視作這個平面外的一個向量,因此\(||\bold y-(a\bold x+b)||^2\)​​​​​實際上就是\(y\)​​​​​向量到平面\(P\)​​​​​​的垂線的長度,我們的目標是就是將這個垂線長度盡可能減小,使得\(\bold y\)​​​​​更加接近平面\(P\)​​​​​​。

\[\bold x=\left(\begin{matrix}x_1\\.\\.\\x_n\end{matrix}\right),\bold e=\left(\begin{matrix}1\\.\\.\\1\end{matrix}\right) \]

主成分分析

主成分分析PCA是多變量分析的常用手段。

它的理論基礎在於一個高維數據不會在其空間內均勻分布,而是通常有規律地沿着一個特定的方向分布。PCA的目的就是找到這個特定的方向,然后將所有數據投影到這個方向上,降低數據維度,同時盡可能保留原有的分布信息。

我們之前已經說到,可以用橢圓來表示協方差矩陣。對於高維橢圓體,其具有多條主軸,其中大多數主軸都很短,從效果上看PCA就是沿最短的主軸方向對橢圓體進行壓縮。而更近一步,我們知道主軸的長度與當前協方差矩陣的特征值一一對應

PCA的步驟為:

  1. 找到協方差矩陣的所有特征值,並計算出其對應的長度為1的特征向量\(\bold p_i\)​​
  2. 將所有\(\bold p_i\)按對應特征值從大到小排序,得到\(\bold q_i\)​,此時稱為第i主成分向量
  3. 我們保存前k個主成分向量
  4. 對於一個高維向量\(\bold x\),我們得到\(\bold x\)第i主成分\(z_i=\bold q_i\cdot \bold x\)
  5. 投影后的向量\(\bold y = z_1\bold q_1+...+z_k\bold q_k\)

從幾何意義上看,投影損失的信息正比於\(\bold x\)到前k個特征向量組成的平面上的垂線長度。

從統計意義上看,投影損失的信息恰等於被壓縮的橢圓體主軸的總長度,即對應特征值之和。

我們定義PCA的累計貢獻率為:

\[\frac{\lambda_{1}+\cdots+\lambda_{k}}{\lambda_{1}+\cdots+\lambda_{k}+\lambda_{k+1}+\cdots+\lambda_{m}} \]

其表現壓縮過程所保留的信息的程度。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM