21/8/27 读书笔记
程序员的数学2
最小二乘法
最小二乘法是回归分析领域最为基础的手段。
我们通常认为解决最小二乘法问题等价于解决:
为什么我们只要让观测值和计算值差的平方的和最小,就能保证统计意义上的合理性呢?
这其实是一个值得思考的问题,背后的理论基础是最大似然估计。
我们假设噪声\(\bold W\)呈正态分布:
\[\boldsymbol{Y}=\bold C \boldsymbol{a}+\boldsymbol{W}, \quad \boldsymbol{Y} \equiv\left(\begin{array}{c} y_{1} \\ \vdots \\ y_{n} \end{array}\right), \bold C \equiv\left(\begin{array}{cc} x_{1} & 1 \\ \vdots & \vdots \\ x_{n} & 1 \end{array}\right), \boldsymbol{a} \equiv\left(\begin{array}{l} a \\ b \end{array}\right), \boldsymbol{W} \equiv\left(\begin{array}{c} W_{1} \\ \vdots \\ W_{n} \end{array}\right) \sim \mathrm{N}\left(\boldsymbol{o}, \sigma^{2} I\right) \]因此我们可以知道\(\bold Y\)的概率密度函数满足:
\[f_{\bold Y}(\bold y)=const\times\exp(-\frac{1}{2\sigma^2}||\bold y-\bold C\bold a||^2) \]最大似然估计促使我们去寻找使得\(f_{\bold Y}(\bold y)\)取值最大的参数\(\bold a = \left(\begin{array}{l} a \\ b \end{array}\right)\),因此我们用观测值\(\check y\)代替\(y\),让\(||\bold y-\bold C\bold a||^2=\sum_{i=1}^n(\check y_i-(ax_i+b))^2\)尽可能小。
注意这里我们假设了噪声呈正态分布,这是一个普遍的考量。
为了解决这个问题,我们可以通过求偏微分来获得:
计算后可得:
整理后:
这实际相当于解一个方程组,这个方程组也可以表示为\(C^TC\bold a=C^T\check {\bold y}\),其也称为正则方程组。
从几何的角度看,我们不妨把\(a\bold x+b\)看做两个向量\((\bold x,\bold e)\)组成的平面\(P\)上的一个向量,\(\bold y\)视作这个平面外的一个向量,因此\(||\bold y-(a\bold x+b)||^2\)实际上就是\(y\)向量到平面\(P\)的垂线的长度,我们的目标是就是将这个垂线长度尽可能减小,使得\(\bold y\)更加接近平面\(P\)。
主成分分析
主成分分析PCA是多变量分析的常用手段。
它的理论基础在于一个高维数据不会在其空间内均匀分布,而是通常有规律地沿着一个特定的方向分布。PCA的目的就是找到这个特定的方向,然后将所有数据投影到这个方向上,降低数据维度,同时尽可能保留原有的分布信息。
我们之前已经说到,可以用椭圆来表示协方差矩阵。对于高维椭圆体,其具有多条主轴,其中大多数主轴都很短,从效果上看PCA就是沿最短的主轴方向对椭圆体进行压缩。而更近一步,我们知道主轴的长度与当前协方差矩阵的特征值一一对应。
PCA的步骤为:
- 找到协方差矩阵的所有特征值,并计算出其对应的长度为1的特征向量\(\bold p_i\)
- 将所有\(\bold p_i\)按对应特征值从大到小排序,得到\(\bold q_i\),此时称为第i主成分向量
- 我们保存前k个主成分向量
- 对于一个高维向量\(\bold x\),我们得到\(\bold x\)的第i主成分\(z_i=\bold q_i\cdot \bold x\)
- 投影后的向量\(\bold y = z_1\bold q_1+...+z_k\bold q_k\)
从几何意义上看,投影损失的信息正比于\(\bold x\)到前k个特征向量组成的平面上的垂线长度。
从统计意义上看,投影损失的信息恰等于被压缩的椭圆体主轴的总长度,即对应特征值之和。
我们定义PCA的累计贡献率为:
其表现压缩过程所保留的信息的程度。