21/8/24 讀書筆記
看完機器學習后最大的感觸是數學基礎太差了。拜我校一位“傳奇”所賜,現在我對概率統計基本毫無印象
故撈了一本數學書看,順便拿python寫點程序模擬一下。由於知識點確實比較碎,所以筆記會比較零散。
程序員的數學2
協方差
對於兩個隨機變量\(X\),\(Y\),我們用協方差\(Cov[X,Y]\)來描述他們的相關性。當協方差為正,我們希望X與Y正相關。
從形式上看,協方差是方差的一種擴充;從意義上看,協方差為正,表示當X取值大於期望值,則Y取值大於期望值的概率更大。
協方差具有性質:
- \(Cov(aX+b,cY+d)\equiv abCov(X,Y)\)
- 當X與Y獨立,\(Cov(X,Y)\equiv E[X-E(X)]E[Y-E(Y)]\equiv 0\),\(X\)與\(Y\)無關。
- 當\(Cov(X,Y)=0\),\(X\)與\(Y\)無關,但不能推出\(X\)與\(Y\)獨立。
協方差受\(X\)與\(Y\)的比例影響,當數值發生改變,協方差也會改變,但是實際上的分布形狀並沒有改變。因此引入相關系數\(\rho\)來消除比例的影響。我們將\(X\)轉變為\(\tilde X=\frac{X}{\sigma_X}=\frac{X}{\sqrt{V(X)}}\)進行標准化,其中\(V(X)\)表示\(X\)的方差。
我們設\(\Delta x_i=x_i-E(X)\),\(\Delta \bold x=\left( \begin{matrix}\Delta x_1\\\Delta x_2\\...\\\Delta x_n\end{matrix}\right)\),則\(\rho_{XY}=\frac{\Delta \bold x\cdot\Delta \bold y}{||\Delta \bold x||||\Delta \bold y||}\),根據施瓦茨不等式證明\(\rho_{XY}\in[-1,1]\)。
無論是基於相關系數還是協方差,都無法判斷X與Y是否相互獨立。我們只能說變量相互獨立時,其協方差和相關系數都是0。同時,相關系數只能說明變量相關,但是不一定直接相關,它們可能存在間接聯系。
協方差矩陣
對於一個隨機變量的集合\(\bold X=\{X_1,X_2,...,X_n\}\),我們稱一個\(n\times n\)的矩陣\(V(\bold X)\)是其協方差矩陣,滿足\(V_{ij}=Cov(X_i,X_j)\)。可以發現,協方差矩陣是一個對稱矩陣,且當變量相互獨立時成為對角矩陣。從矩陣的角度,我們可以發現:
注意這雖然和方差形式和符號上都很像,但是\(\bold X\)是一個向量,V是協方差矩陣,\(E(\bold X)\)實際上是\(\bold X\)中每個隨機變量的期望值組成的向量。
考慮在一個n維空間里的分布,\(\bold X\)表示一個隨機的向量,我們需要考察\(X\)在一個單位向量\(\bold u\)方向上的發散程度。假設我們將\(\bold u\)和\(\bold X\)都表示為一個列向量,用\(\theta\)表示\(\bold u\)和\(\bold X\)的夾角,那么我們可以計算出在\(\bold u\)方向上的\(X\)向量的投影長度:
根據協方差矩陣的性質,我們可以得到:
由此,我們可以用一個分布的協方差矩陣,來求出其在任意方向上分布的情況。