21/8/24 读书笔记
看完机器学习后最大的感触是数学基础太差了。拜我校一位“传奇”所赐,现在我对概率统计基本毫无印象
故捞了一本数学书看,顺便拿python写点程序模拟一下。由于知识点确实比较碎,所以笔记会比较零散。
程序员的数学2
协方差
对于两个随机变量\(X\),\(Y\),我们用协方差\(Cov[X,Y]\)来描述他们的相关性。当协方差为正,我们希望X与Y正相关。
从形式上看,协方差是方差的一种扩充;从意义上看,协方差为正,表示当X取值大于期望值,则Y取值大于期望值的概率更大。
协方差具有性质:
- \(Cov(aX+b,cY+d)\equiv abCov(X,Y)\)
- 当X与Y独立,\(Cov(X,Y)\equiv E[X-E(X)]E[Y-E(Y)]\equiv 0\),\(X\)与\(Y\)无关。
- 当\(Cov(X,Y)=0\),\(X\)与\(Y\)无关,但不能推出\(X\)与\(Y\)独立。
协方差受\(X\)与\(Y\)的比例影响,当数值发生改变,协方差也会改变,但是实际上的分布形状并没有改变。因此引入相关系数\(\rho\)来消除比例的影响。我们将\(X\)转变为\(\tilde X=\frac{X}{\sigma_X}=\frac{X}{\sqrt{V(X)}}\)进行标准化,其中\(V(X)\)表示\(X\)的方差。
我们设\(\Delta x_i=x_i-E(X)\),\(\Delta \bold x=\left( \begin{matrix}\Delta x_1\\\Delta x_2\\...\\\Delta x_n\end{matrix}\right)\),则\(\rho_{XY}=\frac{\Delta \bold x\cdot\Delta \bold y}{||\Delta \bold x||||\Delta \bold y||}\),根据施瓦茨不等式证明\(\rho_{XY}\in[-1,1]\)。
无论是基于相关系数还是协方差,都无法判断X与Y是否相互独立。我们只能说变量相互独立时,其协方差和相关系数都是0。同时,相关系数只能说明变量相关,但是不一定直接相关,它们可能存在间接联系。
协方差矩阵
对于一个随机变量的集合\(\bold X=\{X_1,X_2,...,X_n\}\),我们称一个\(n\times n\)的矩阵\(V(\bold X)\)是其协方差矩阵,满足\(V_{ij}=Cov(X_i,X_j)\)。可以发现,协方差矩阵是一个对称矩阵,且当变量相互独立时成为对角矩阵。从矩阵的角度,我们可以发现:
注意这虽然和方差形式和符号上都很像,但是\(\bold X\)是一个向量,V是协方差矩阵,\(E(\bold X)\)实际上是\(\bold X\)中每个随机变量的期望值组成的向量。
考虑在一个n维空间里的分布,\(\bold X\)表示一个随机的向量,我们需要考察\(X\)在一个单位向量\(\bold u\)方向上的发散程度。假设我们将\(\bold u\)和\(\bold X\)都表示为一个列向量,用\(\theta\)表示\(\bold u\)和\(\bold X\)的夹角,那么我们可以计算出在\(\bold u\)方向上的\(X\)向量的投影长度:
根据协方差矩阵的性质,我们可以得到:
由此,我们可以用一个分布的协方差矩阵,来求出其在任意方向上分布的情况。