協方差用於衡量兩個變量的總體誤差或協同程度。兩個總體 $X,Y$ 之間的協方差定義為
$$Cov(X,Y) = E\left [ (X - E(X))(Y - E(Y)) \right ]$$
將這個式子展開就到計算總體協方差的常用公式:
$$Cov(X,Y) = E\left [ (X - E(X))(Y - E(Y)) \right ] = E(XY) - E(X)E(Y)$$
如果兩個變量的變化趨勢一致,也就是說如果其中一個大於自身的期望值時另外一個也大於自身的期望值,那么兩個變量之間的協方差就是正值;
如果兩個變量的變化趨勢相反,即其中一個變量大於自身的期望值時另外一個卻小於自身的期望值,那么兩個變量之間的協方差就是負值。
如果 $X$ 與 $Y$是統計獨立的,那么二者之間的協方差就是 $0$。
從上面也可以看出:總體 $X$ 和 $Y$ 的所有可能取值個數必須是一樣的,即每一個橫坐標,都會對應一個 $X$ 和 $Y$ 的取值。
相關系數定義:
$$\rho_{XY} = \frac{Cov(X,Y)}{\sigma_{X}\sigma_{Y}}$$
相關系數也可以看成協方差:一種剔除了兩個變量量綱影響、標准化后的特殊協方差。舉個例子:
協方差是有單位的,比如身高 $X$(單位:厘米)與體重 $Y$(單位:公斤)的協方差 $Cov(X,Y)$ 的單位是:厘米公斤。假如又有一個
隨機變量,同學的年齡 $Z$(單位:歲),它和體重的協方差 $Cov(Z,Y)$ 的單位為:歲公斤。因為單位不同,原始的協方差公式便會受
到兩個變量變化幅度的影響。
那么到底體重與身高更正相關,還是體重與歲數更正相關?是沒有辦法直接比較 $Cov(X,Y)$ 和 $Cov(Z,Y)$ 來判斷的。
那么為什么要通過除以標准差的方式來剔除變化幅度的影響呢?咱們簡單從標准差公式看一下:
$$\sigma_{X} = \sqrt{E\left [ (X- \mu_{X})^{2} \right ]}$$
從公式可以看出,$X - \mu_{X}$ 表示變量值偏離均值的幅度,因為有可能是負數,所以進行平方,求期望是得到偏離均值的平均情況,最
后還需要開方,即回到原來的量綱。所以標准差能夠反映隨機變量在整體變化過程中偏離均值的幅度。
但總體 $X,Y$ 的分布沒辦法知道,所以一般用樣本協方差來估計總體,參考樣本方差的形式可寫出樣本協方差為
$$cov(X,Y) = \frac{1}{n - 1}\sum_{i=1}^{n}\left ( X_{i} - \bar{X} \right )\left ( Y_{i} - \bar{Y} \right )$$
無偏性證明:
$$E \left [ \frac{1}{n - 1}\sum_{i=1}^{n}\left ( X_{i} - \bar{X} \right )\left ( Y_{i} - \bar{Y} \right ) \right ] = E \left [ \frac{1}{n - 1}\sum_{i = 1}^{n}X_{i}Y_{i} - \frac{n}{n - 1}\bar{X}\bar{Y} \right ] \\
= \frac{n}{n - 1}\left [ E(XY) - \frac{1}{n^{2}} \cdot E \left (\sum_{i=1}^{n}X_{i} \cdot \sum_{j=1}^{n}Y_{j} \right ) \right ] \\
= \frac{n}{n - 1}\left [ E(XY) - \frac{1}{n^{2}} \cdot E \left (\sum_{i=1}^{n}X_{i}Y_{i} + \sum_{i=1}^{n} \sum_{j \neq i}^{n}X_{i}Y_{j} \right ) \right ] \\
= \frac{n}{n - 1}\left [ E(XY) - \frac{1}{n}E(XY) - \frac{n - 1}{n} \cdot E(X)E(Y) \right ] \\
= E(XY) - E(X)E(Y)$$
上面的過程認為當 $i \neq j$ 時,$X_{i}$ 與 $Y_{j}$ 是相互獨立的。
證畢
如果我們將樣本 $X_{i},i = 1,2,3,...$ 和 $Y_{i},i = 1,2,3,...$ 寫成向量形式,即
$$\alpha = \left ( X_{1}, X_{2}, \cdots, X_{n} \right )^{T} \\
\beta = \left ( Y_{1}, Y_{2}, \cdots, Y_{n} \right )^{T}$$
$\bar{\alpha},\bar{\beta}$ 為對應樣本的均值向量,即
$$\bar{\alpha} = (\bar{X},\bar{X},\cdots,\bar{X}) \\
\bar{\beta} = (\bar{Y},\bar{Y},\cdots,\bar{Y})$$
則樣本協方差可以寫為如下形式
$$cov(X,Y) = \frac{1}{n - 1}\sum_{i=1}^{n}\left ( X_{i} - \bar{X} \right )\left ( Y_{i} - \bar{Y} \right ) = \frac{1}{n - 1}(\alpha - \bar{\alpha}) \cdot (\beta - \bar{\beta})$$
協方差矩陣
協方差也只能處理二維問題,那維數多了自然就需要計算多個協方差,使用矩陣來組織這些數據。
假設有 $N$ 個總體 $X_{1}, X_{2}, \cdots, X_{N}$,每個總體抽取 $m$ 份樣本,給出協方差矩陣的定義
$$\begin{bmatrix}
c_{11} & c_{21} & \cdots & c_{1n}\\
c_{21} & c_{22} & \cdots & c_{2n}\\
\vdots & \vdots & \ddots & \vdots \\
c_{n1} & c_{n2} & \cdots & c_{nn}
\end{bmatrix}$$
其中
$$c_{ij} = cov \left ( X_{i}, X_{j} \right ),\; i,j = 1,2,\cdots,N$$
協方差矩陣是一個對稱的矩陣,而且對角線是各個維度的方差。