度量線性相關性之協方差與相關系數


一、協方差

可以通俗的理解為:兩個變量在變化過程中是同方向變化?還是反方向變化?同向或反向程度如何?(你變大,同時我也變大,說明兩個變量是同向變化的)

協方差定義:Cov(X,Y)=E[(X-E(X))(Y-E(Y))]

公式簡單翻譯一下是:如果有X,Y兩個變量,每個時刻的“X值與其均值之差”乘以“Y值與其均值之差”得到一個乘積,再對這每時刻的乘積求和並求出均值(這里求“期望”簡單認為就是求均值了)。

如果X、Y變化方向相同,即當X大於其均值時,Y也大於其均值,當X小於其均值時,Y也小於其均值,在這兩種情況下,乘積為正。如果X、Y的變化方向一直保持相同,X變大的時候,Y也變大,X變小的時候,Y也變小,則協方差為正;

如果X、Y變化方向一直相反,則協方差為負;

如果X、Y變化方向之間相互無規律,則可能某一時刻(X-E(X))(Y-E(Y))為正,而另一時刻的(X-E(X))(Y-E(Y))為負,累計以后正負項抵消,最后求出的平均值就是協方差,通過協方差的大小,就可以判斷兩個變量變化同向或者反向的程度了。

總結一下,如果協方差為正,說明X,Y同向變化,協方差越大說明同向程度越高;如果協方差為負,說明X,Y反向運動,協方差越小說明反向程度越高。

 

二、相關系數

公式翻譯一下:相關系數就是用X、Y的協方差除以X的標准差和Y的標准差。(標准差是方差的算術平方根)

所以,相關系數也可以看成協方差:一種剔除了兩個變量量綱影響、標准化后的特殊協方差。

既然是一種特殊的協方差,那它:

1、也可以反映兩個變量變化時是同向還是反向,如果同向變化就為正,反向變化就為負。

2、由於它是標准化后的協方差,因此更重要的特性來了:它消除了兩個變量變化幅度的影響,而只是單純反應兩個變量每單位變化時的相似程度。

總結一下,對於兩個變量X、Y,當他們的相關系數為1時,說明兩個變量變化時的正向相似度最大,即,你變大一倍,我也變大一倍;你變小一倍,我也變小一倍。也即是完全正相關(以X、Y為橫縱坐標軸,可以畫出一條斜率為正數的直線,所以X、Y是線性關系的)。隨着他們相關系數減小,兩個變量變化時的相似度也變小,當相關系數為0時,兩個變量的變化過程沒有任何相似度,也即兩個變量無關。當相關系數繼續變小,小於0時,兩個變量開始出現反向的相似度,隨着相關系數繼續變小,反向相似度會逐漸變大。當相關系數為-1時,說明兩個變量變化的反向相似度最大,即,你變大一倍,我變小一倍;你變小一倍,我變大一倍。也即是完全負相關(以X、Y為橫縱坐標軸,可以畫出一條斜率為負數的直線,所以X、Y也是線性關系的)。

 

 
相關系數只能用來衡量線性相關程度

 

參考鏈接:http://www.mathsisfun.com/data/correlation.html

 

一般我們講的相關系數,其實叫皮爾遜相關系數(Pearson correlation coefficient),wiki關於這個系數的解釋是:

The correlation coefficient ranges from −1 to 1. A value of 1 implies that a linear equation describes the relationship between X and Y perfectly, with all data points lying on a line for which Y increases as X increases. A value of −1 implies that all data points lie on a line for which Y decreases as X increases. A value of 0 implies that there is no linear correlation between the variables.

case 1:
 
Four sets of data with the same correlation of 0.816


如圖(右上)所示,非線性相關也會導致線性相關系數很大;
好吧,你退一步,轉而問:如果兩個變量的相關系數很大(0.816),那能不能說兩者相關呢? 答案還是不能,為什么? 因為如圖(右下)所示,很可能是一個離群點(outlier)導致了相關系數變得很大。
這也不能那也不能,那怎么辦?(你一定要畫出圖來看才行,后面會深入解釋)

 
case 2:
 
 

上圖的相關系數計算結果為0,但你能說冰激凌的銷量和溫度不相關嗎?
所以, pearson correlation coefficient = 0只能說不是線性相關,但說不定會有更復雜的相關關系(非線性相關)

總結:如果兩個變量本身就是線性的關系,那么皮爾遜相關系數ok沒問題,絕對值大的就是相關性強,小的就是相關性弱;
但在你不知道這兩個變量是什么關系的情況下,即使算出皮爾遜相關系數,發現很大,也不能說明那兩個變量線性相關,甚至不能說他們相關,你一定要畫出圖來看才行,這就是為什么我們說眼見為實和數據可視化的重要性。

參考鏈接:

http://blog.csdn.net/witforeveryang/article/details/42585791

https://en.wikipedia.org/wiki/Pearson_correlation_coefficient

 

理解:在不存在離群點的情況下,相關系數反應的是兩個變量之間的線性相關程度,線性相關程度高低與變量之間有沒有其他非線性相關性無關。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM