21/8/27 讀書筆記
程序員的數學2
最小二乘法
最小二乘法是回歸分析領域最為基礎的手段。
我們通常認為解決最小二乘法問題等價於解決:
為什么我們只要讓觀測值和計算值差的平方的和最小,就能保證統計意義上的合理性呢?
這其實是一個值得思考的問題,背后的理論基礎是最大似然估計。
我們假設噪聲\(\bold W\)呈正態分布:
\[\boldsymbol{Y}=\bold C \boldsymbol{a}+\boldsymbol{W}, \quad \boldsymbol{Y} \equiv\left(\begin{array}{c} y_{1} \\ \vdots \\ y_{n} \end{array}\right), \bold C \equiv\left(\begin{array}{cc} x_{1} & 1 \\ \vdots & \vdots \\ x_{n} & 1 \end{array}\right), \boldsymbol{a} \equiv\left(\begin{array}{l} a \\ b \end{array}\right), \boldsymbol{W} \equiv\left(\begin{array}{c} W_{1} \\ \vdots \\ W_{n} \end{array}\right) \sim \mathrm{N}\left(\boldsymbol{o}, \sigma^{2} I\right) \]因此我們可以知道\(\bold Y\)的概率密度函數滿足:
\[f_{\bold Y}(\bold y)=const\times\exp(-\frac{1}{2\sigma^2}||\bold y-\bold C\bold a||^2) \]最大似然估計促使我們去尋找使得\(f_{\bold Y}(\bold y)\)取值最大的參數\(\bold a = \left(\begin{array}{l} a \\ b \end{array}\right)\),因此我們用觀測值\(\check y\)代替\(y\),讓\(||\bold y-\bold C\bold a||^2=\sum_{i=1}^n(\check y_i-(ax_i+b))^2\)盡可能小。
注意這里我們假設了噪聲呈正態分布,這是一個普遍的考量。
為了解決這個問題,我們可以通過求偏微分來獲得:
計算后可得:
整理后:
這實際相當於解一個方程組,這個方程組也可以表示為\(C^TC\bold a=C^T\check {\bold y}\),其也稱為正則方程組。
從幾何的角度看,我們不妨把\(a\bold x+b\)看做兩個向量\((\bold x,\bold e)\)組成的平面\(P\)上的一個向量,\(\bold y\)視作這個平面外的一個向量,因此\(||\bold y-(a\bold x+b)||^2\)實際上就是\(y\)向量到平面\(P\)的垂線的長度,我們的目標是就是將這個垂線長度盡可能減小,使得\(\bold y\)更加接近平面\(P\)。
主成分分析
主成分分析PCA是多變量分析的常用手段。
它的理論基礎在於一個高維數據不會在其空間內均勻分布,而是通常有規律地沿着一個特定的方向分布。PCA的目的就是找到這個特定的方向,然后將所有數據投影到這個方向上,降低數據維度,同時盡可能保留原有的分布信息。
我們之前已經說到,可以用橢圓來表示協方差矩陣。對於高維橢圓體,其具有多條主軸,其中大多數主軸都很短,從效果上看PCA就是沿最短的主軸方向對橢圓體進行壓縮。而更近一步,我們知道主軸的長度與當前協方差矩陣的特征值一一對應。
PCA的步驟為:
- 找到協方差矩陣的所有特征值,並計算出其對應的長度為1的特征向量\(\bold p_i\)
- 將所有\(\bold p_i\)按對應特征值從大到小排序,得到\(\bold q_i\),此時稱為第i主成分向量
- 我們保存前k個主成分向量
- 對於一個高維向量\(\bold x\),我們得到\(\bold x\)的第i主成分\(z_i=\bold q_i\cdot \bold x\)
- 投影后的向量\(\bold y = z_1\bold q_1+...+z_k\bold q_k\)
從幾何意義上看,投影損失的信息正比於\(\bold x\)到前k個特征向量組成的平面上的垂線長度。
從統計意義上看,投影損失的信息恰等於被壓縮的橢圓體主軸的總長度,即對應特征值之和。
我們定義PCA的累計貢獻率為:
其表現壓縮過程所保留的信息的程度。