皮爾遜相關系數(Pearson Correlation Coefficient,Pearson's r)


Pearson's r,稱為皮爾遜相關系數(Pearson correlation coefficient),用來反映兩個隨機變量之間的線性相關程度。

 

用於總體(population)時記作ρ (rho)(population correlation coefficient):

給定兩個隨機變量X,Y,ρ的公式為: 

 

其中:  cov(X,Y)是X,Y的協方差

             σX是X的標准差

             σY是Y的標准差

 

用於樣本(sample)時記作rsample correlation coefficient):

給定兩個隨機變量X,Y,r的公式為:

 

其中:  n是樣本數量

             Xi, Yi是變量X,Y對應的i點觀測值

            是X樣本平均數,是Y樣本平均數 

 

r的取值在-1與1之間。取值為1時,表示兩個隨機變量之間呈完全正相關關系;取值為-1時,表示兩個隨機變量之間呈完全負相關關系;取值為0時,表示兩個隨機變量之間線性無關。

 

那么r值需要多大才說明兩變量之間有顯著關聯呢?我們用樣本相關系數r作為總體相關系數ρ的估計值,要判斷r值確實顯著,而不是由於抽樣誤差或偶然因素導致其顯著,需要進行假設檢驗。可以用scipy來計算r並做假設檢驗:

scipy.stats.pearsonr(xy)

 

那么皮爾遜相關系數是怎么得來的呢?(參考:https://blog.csdn.net/ichuzhen/article/details/79535226

 

要理解皮爾遜相關系數,首先要理解協方差(Covariance)

。協方差可以反映兩個隨機變量之間的關系,如果一個變量跟隨着另一個變量一起變大或者變小,那么這兩個變量的協方差就是正值,就表示這兩個變量之間呈正相關關系,反之相反。樣本協方差的公式如下:

 

 

 

 如果協方差的值是個很大的正數,我們可以得到兩個可能的結論:

(1) 兩個變量之間呈很強的正相關性

(2) 兩個變量之間並沒有很強的正相關性,協方差的值很大是因為X或Y的標准差很大

 

那么到底哪個結論正確呢?只要把X和Y變量的標准差,從協方差中剔除不就知道了嗎?協方差能告訴我們兩個隨機變量之間的關系,但是卻沒法衡量變量之間相關性的強弱。因此,為了更好地度量兩個隨機變量之間的相關程度,引入了皮爾遜相關系數。可以看到,皮爾遜相關系數就是用協方差除以兩個變量的標准差得到的。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM