21/8/27 读书笔记 最小二乘法&主成分分析的深入理解


21/8/27 读书笔记

程序员的数学2

最小二乘法

最小二乘法是回归分析领域最为基础的手段。

我们通常认为解决最小二乘法问题等价于解决:

\[试求a,b,使得\sum_{i=1}^n(\check y_i-(ax_i+b))^2最小 \]

为什么我们只要让观测值和计算值差的平方的和最小,就能保证统计意义上的合理性呢?

这其实是一个值得思考的问题,背后的理论基础是最大似然估计

我们假设噪声\(\bold W\)呈正态分布

\[\boldsymbol{Y}=\bold C \boldsymbol{a}+\boldsymbol{W}, \quad \boldsymbol{Y} \equiv\left(\begin{array}{c} y_{1} \\ \vdots \\ y_{n} \end{array}\right), \bold C \equiv\left(\begin{array}{cc} x_{1} & 1 \\ \vdots & \vdots \\ x_{n} & 1 \end{array}\right), \boldsymbol{a} \equiv\left(\begin{array}{l} a \\ b \end{array}\right), \boldsymbol{W} \equiv\left(\begin{array}{c} W_{1} \\ \vdots \\ W_{n} \end{array}\right) \sim \mathrm{N}\left(\boldsymbol{o}, \sigma^{2} I\right) \]

因此我们可以知道\(\bold Y\)的概率密度函数满足:

\[f_{\bold Y}(\bold y)=const\times\exp(-\frac{1}{2\sigma^2}||\bold y-\bold C\bold a||^2) \]

最大似然估计促使我们去寻找使得\(f_{\bold Y}(\bold y)\)​取值最大的参数\(\bold a = \left(\begin{array}{l} a \\ b \end{array}\right)\)​,因此我们用观测值\(\check y\)代替\(y\),让\(||\bold y-\bold C\bold a||^2=\sum_{i=1}^n(\check y_i-(ax_i+b))^2\)​​​尽可能小。

注意这里我们假设了噪声呈正态分布,这是一个普遍的考量。

为了解决这个问题,我们可以通过求偏微分来获得:

\[\frac{\partial h}{\partial a}=0 \text { 且 } \quad \frac{\partial h}{\partial b}=0 \]

计算后可得:

\[-2 \sum_{i=1}^{n}\left(\check{y}_{i}-\left(a x_{i}+b\right)\right) x_{i}=0 \quad \text { 且 } \quad-2 \sum_{i=1}^{n}\left(\check{y}_{i}-\left(a x_{i}+b\right)\right)=0 \]

整理后:

\[\left(\sum_{i=1}^{n} x_{i}^{2}\right) a+\left(\sum_{i=1}^{n} x_{i}\right) b=\left(\sum_{i=1}^{n} \check{y}_{i} x_{i}\right) \text { 且 }\left(\sum_{i=1}^{n} x_{i}\right) a+n b=\left(\sum_{i=1}^{n} \check{y}_{i}\right) \]

这实际相当于解一个方程组,这个方程组也可以表示为\(C^TC\bold a=C^T\check {\bold y}\),其也称为正则方程组。

从几何的角度看,我们不妨把\(a\bold x+b\)​​​​​​​看做两个向量\((\bold x,\bold e)\)​​​​​​​组成的平面\(P\)​​​​​​​上的一个向量,\(\bold y\)​​​​​​​视作这个平面外的一个向量,因此\(||\bold y-(a\bold x+b)||^2\)​​​​​实际上就是\(y\)​​​​​向量到平面\(P\)​​​​​​的垂线的长度,我们的目标是就是将这个垂线长度尽可能减小,使得\(\bold y\)​​​​​更加接近平面\(P\)​​​​​​。

\[\bold x=\left(\begin{matrix}x_1\\.\\.\\x_n\end{matrix}\right),\bold e=\left(\begin{matrix}1\\.\\.\\1\end{matrix}\right) \]

主成分分析

主成分分析PCA是多变量分析的常用手段。

它的理论基础在于一个高维数据不会在其空间内均匀分布,而是通常有规律地沿着一个特定的方向分布。PCA的目的就是找到这个特定的方向,然后将所有数据投影到这个方向上,降低数据维度,同时尽可能保留原有的分布信息。

我们之前已经说到,可以用椭圆来表示协方差矩阵。对于高维椭圆体,其具有多条主轴,其中大多数主轴都很短,从效果上看PCA就是沿最短的主轴方向对椭圆体进行压缩。而更近一步,我们知道主轴的长度与当前协方差矩阵的特征值一一对应

PCA的步骤为:

  1. 找到协方差矩阵的所有特征值,并计算出其对应的长度为1的特征向量\(\bold p_i\)​​
  2. 将所有\(\bold p_i\)按对应特征值从大到小排序,得到\(\bold q_i\)​,此时称为第i主成分向量
  3. 我们保存前k个主成分向量
  4. 对于一个高维向量\(\bold x\),我们得到\(\bold x\)第i主成分\(z_i=\bold q_i\cdot \bold x\)
  5. 投影后的向量\(\bold y = z_1\bold q_1+...+z_k\bold q_k\)

从几何意义上看,投影损失的信息正比于\(\bold x\)到前k个特征向量组成的平面上的垂线长度。

从统计意义上看,投影损失的信息恰等于被压缩的椭圆体主轴的总长度,即对应特征值之和。

我们定义PCA的累计贡献率为:

\[\frac{\lambda_{1}+\cdots+\lambda_{k}}{\lambda_{1}+\cdots+\lambda_{k}+\lambda_{k+1}+\cdots+\lambda_{m}} \]

其表现压缩过程所保留的信息的程度。


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM