協方差 的直觀理解


1.協方差

方差是描述自身偏離其均值的程度。

協方差用來描述兩個變量間的變化關系,協方差用來度量兩個隨機變量關系的統計量

\[cov(X,Y)=E[(X-E[X])(Y-E[Y])] \]

\[cov(X,Y)=E[(X-μ_x)(Y-μ_y)] \]

E[x] 代表期望,一般置X的均值

公式:如果有X,Y兩個變量,每個時刻的“X值與其均值之差”乘以“Y值與其均值之差”得到一個乘積,再對這每時刻的乘積求和並求出均值

eg:比如有兩個變量X,Y,觀察t1-t7(7個時刻)他們的變化情況。

我們發現在每一個時刻,X-μ,和Y-μ 都是同號的,

如果是反向的:X-μ,和Y-μ 的乘積就是負號,

當然上面說的是兩種特殊情況,很多時候X,Y的運動是不規律的,比如:

這種情況下很可能在某一個時刻 乘積是正,另外一個時刻乘積又為負數了,將每一個時刻的乘積加到一起,其中的正負會抵消,最后平均得出值就是協方差,通過協方差的大小,就可以判斷兩個變量同向或者反向的程度了。

總結一下,如果協方差為正,說明X,Y同向變化,協方差越大說明同向程度越高;如果協方差為負,說明X,Y反向運動,協方差越小說明反向程度越高。

拓展

如果同向變化,但是X大於均值,Y小於均值,那乘積是負數的。

可見t1時刻 X-μ,和Y-μ 負號相反,乘積為負。但是如果從整體來說依然要計算其他時間的值,然后在吧7個時間的值求均值,所以某一時刻的為負數不代表整體是反向的。要結合整體來判斷。

相關系數

翻譯一下:就是用X、Y的協方差除以X的標准差和Y的標准差。

所以,相關系數也可以看成協方差:一種剔除了兩個變量量綱影響、標准化后的特殊協方差。

既然是一種特殊的協方差,那它:

1、也可以反映兩個變量變化時是同向還是反向,如果同向變化就為正,反向變化就為負。

2、由於它是標准化后的協方差,因此更重要的特性來了:它消除了兩個變量變化幅度的影響,而只是單純反應兩個變量每單位變化時的相似程度。

\[ρ=\frac{Cov(X,Y)}{δ_Xδ_Y} \]

首先,還是承接上文中的變量X、Y變化的示意圖(X為紅點,Y為綠點),來看兩種情況:

1546664849339

很容易就可以看出以上兩種情況X,Y都是同向變化的,而這個“同向變化”,有個非常顯著特征:X、Y同向變化的過程,具有極高的相似度!無論第一還是第二種情況下,都是:t1時刻X、Y都大於均值,t2時刻X、Y都變小且小於均值,t3時刻X、Y繼續變小且小於均值,t4時刻X、Y變大但仍小於均值,t5時刻X、Y變大且大於均值……

可是,計算一下他們的協方差,

1546664896121

協方差差出了一萬倍,只能從兩個協方差都是正數判斷出兩種情況下X、Y都是同向變化,但是,一點也看不出兩種情況下X、Y的變化都具有相似性這一特點。

這是為什么呢?

因為以上兩種情況下,在X、Y兩個變量同向變化時,X變化的幅度不同,這樣,兩種情況的協方差更多的被變量的變化幅度所影響了

所以,為了能准確的研究兩個變量在變化過程中的相似程度,我們就要把變化幅度對協方差的影響,從協方差中剔除掉。於是,相關系數就橫空出世了,就有了最開始相關系數的公式:

那么為什么要通過除以標准差的方式來剔除變化幅度的影響呢?咱們簡單從標准差公式看一下:

\[δ_X=\sqrt{E((X-μ_x)^2)} \]

從公式可以看出,標准差計算方法為,每一時刻變量值與變量均值之差再平方,求得一個數值,再將每一時刻這個數值相加后求平均,再開方。

為何要做平方呢,因為有時候變化值和均值是反向偏離的X-μ是一個負數,平方后就可以吧負號消除,最后求出每次變化偏離均值的情況。剛才為了消除負號問題加了平方,最后需要開方,將數值再返回到原有的量級,

所以標准差描述了變量在整體變化過程中偏離均值的幅度。協方差除以標准差,也就是把協方差中變量變化幅度對協方差的影響剔除掉,這樣協方差也就標准化了,它反應的就是兩個變量每單位變化時的情況。這也就是相關系數的公式含義了。

相關系數是協方差除以標准差,當X,Y的波動幅度變大的時候,協方差變大,標准差也會變大,相關系數的分母都變大,其實變化的趨勢是可以抵消的,協方差的取值范圍是 正無窮到負無窮,相關系數則是+1 到-1之間。

當他們的相關系數為1時,說明兩個變量變化時的正向相似度最大,即,你變大一倍,我也變大一倍;你變小一倍,我也變小一倍。也即是完全正相關(以X、Y為橫縱坐標軸,可以畫出一條斜率為正數的直線,所以X、Y是線性關系的)

隨着他們相關系數減小,兩個變量變化時的相似度也變小,當相關系數為0時,兩個變量的變化過程沒有任何相似度,也即兩個變量無關。

當相關系數繼續變小,小於0時,兩個變量開始出現反向的相似度,隨着相關系數繼續變小,反向相似度會逐漸變大。

當相關系數為-1時,說明兩個變量變化的反向相似度最大,即,你變大一倍,我變小一倍;你變小一倍,我變大一倍。也即是完全負相關(以X、Y為橫縱坐標軸,可以畫出一條斜率為負數的直線,所以X、Y也是線性關系的)。

協方差矩陣

對於多維度數據通過協方差矩陣描述各個維度間的變換關系,而不是各個樣本的之間的關系,對角線上是方差,非對角線是協方差;協方差為0時兩者獨立,其絕對值越大,兩者對彼此的影響越大。

\[C=\begin{pmatrix} cov(x,x)& cov(x,y)& cov(x,z)\\ cov(y,x)& cov(y,y)& cov(y,z)\\ cov(z,x)& cov(z,y)& cov(z,z) \end{pmatrix} \]

可見,協方差矩陣是一個對稱的矩陣,而且對角線是各個維度上的方差。

理解協方差矩陣的關鍵就在於牢記它計算的是不同維度之間的協方差,而不是不同樣本之間,拿到一個樣本矩陣,我們最先要明確的就是一行是一個樣本還是一個維度,心中明確這個整個計算過程.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM