摘要:最近在學習機器學習/數據挖掘的算法,在看一些paper的時候經常會遇到以前學過的數學公式或者名詞,又是總是想不起來,所以在此記錄下自己的數學復習過程,方便后面查閱。
1:數學期望
數學期望是隨機變量的重要特征之一,隨機變量X的數學期望記為E(X),E(X)是X的算術平均的近似值,數學期望表示了X的平均值大小。
- 當X為離散型隨機變量時,並且其分布律為 P(X=xk) = pk ,其中k=1,2,…,n;則數學期望
(要求絕對收斂). - 當X為連續型隨機變量時,設其概率密度為f(x),則數學期望為
(要求絕對收斂).
2: 方差
數學期望給出了隨機變量的平均大小,現實生活中我們還經常關心隨機變量的取值在均值周圍的散布程度,而方差就是這樣的一個數字特征。
設X是隨機變量,並且E{[X-E(X)2]}存在,則稱它為X的方差,記為D(X)。
另外,D(X) = E{[X-E(X)2]} 經過化解可得 D(X) = E(X2) – [E(X)]2 .我們一般計算的時候常用這個式子。
3: 協方差
對於二維的隨機變量(X,Y),我們還要討論它們的相互關系,協方差就是一個這樣的數字特征。
因為E{[X-E(X)][Y-E[Y]]} = E(XY) – E(X)E(Y).
又當X,Y相互獨立的時候E(XY) = E(X)E(Y).這意味着若E{[X-E(X)][Y-E[Y]]} ≠ 0 ,則X與Y是存在一定關系的。
我們把E{[X-E(X)][Y-E[Y]]} 稱為隨機變量X與Y的協方差。記為Cov(X,Y).
即:Cov(X,Y) = E{[X-E(X)][Y-E[Y]]}
4:相關系數
協方差在某種意義上是表示了兩個隨機變量間的關系,但是Cov(X,Y)的取值大小與X,Y的量綱有關,不方便分析,所以為了避免這一點,我們用X,Y的標准化隨機變量來討論。
其中
為X,Y的協方差即Cov(X,Y),D(X),D(Y)分別是X,Y的方差且D(X)>0,D(Y)>0。
關於相關系數,我們有下面的性質:
- |
| ≤ 1 - |
| = 1 的充要條件是X 與 Y 以概率 1 存在線性關系,即 P{Y = a +bX} = 1, a,b是常數。 - 若
= 0,則說明X,Y不相關並且X與Y不存在線性關系。 - 若隨機變量X,Y相互獨立,則
= 0,即X,Y不相關。
注意:兩個不相關的隨機變量,不一定相互獨立,有一特殊情況是,當隨機變量X,Y服從二維正態分布的時候,獨立與不相關等價。
- 不相關只能說明X與Y不存在線性關系。
- 獨立說明X與Y既不存在線性關系,也不存在非線性關系。
5:矩
矩(moment)是最廣泛的一種數字特征,常用的矩有兩種:原點矩和中心矩。
原點矩:
對於正整數k,稱隨機變量X的k次冪的數學期望為X的k階原點矩:即 E(Xk) ,k=1,2,…n.
數學期望就是一階原點矩。
中心矩:
對於正整數k,稱隨機變量X與E(X)差的k次冪的數學期望為X的k階中心矩:即 E{X-E[XK]},K=1,2,…n.
方差就是二階中心矩。
