Pearson's r,稱為皮爾遜相關系數(Pearson correlation coefficient),用來反映兩個隨機變量之間的線性相關程度。
用於總體(population)時記作ρ (rho)(population correlation coefficient):
給定兩個隨機變量X,Y,ρ的公式為: 
其中: cov(X,Y)是X,Y的協方差
σX是X的標准差
σY是Y的標准差
用於樣本(sample)時記作r(sample correlation coefficient):
給定兩個隨機變量X,Y,r的公式為:
其中: n是樣本數量
Xi, Yi是變量X,Y對應的i點觀測值
是X樣本平均數,
是Y樣本平均數
r的取值在-1與1之間。取值為1時,表示兩個隨機變量之間呈完全正相關關系;取值為-1時,表示兩個隨機變量之間呈完全負相關關系;取值為0時,表示兩個隨機變量之間線性無關。
那么r值需要多大才說明兩變量之間有顯著關聯呢?我們用樣本相關系數r作為總體相關系數ρ的估計值,要判斷r值確實顯著,而不是由於抽樣誤差或偶然因素導致其顯著,需要進行假設檢驗。可以用scipy來計算r並做假設檢驗:
scipy.stats.pearsonr(x, y)
那么皮爾遜相關系數是怎么得來的呢?(參考:https://blog.csdn.net/ichuzhen/article/details/79535226)
要理解皮爾遜相關系數,首先要理解協方差(Covariance)
。協方差可以反映兩個隨機變量之間的關系,如果一個變量跟隨着另一個變量一起變大或者變小,那么這兩個變量的協方差就是正值,就表示這兩個變量之間呈正相關關系,反之相反。樣本協方差的公式如下:
。
如果協方差的值是個很大的正數,我們可以得到兩個可能的結論:
(1) 兩個變量之間呈很強的正相關性
(2) 兩個變量之間並沒有很強的正相關性,協方差的值很大是因為X或Y的標准差很大
那么到底哪個結論正確呢?只要把X和Y變量的標准差,從協方差中剔除不就知道了嗎?協方差能告訴我們兩個隨機變量之間的關系,但是卻沒法衡量變量之間相關性的強弱。因此,為了更好地度量兩個隨機變量之間的相關程度,引入了皮爾遜相關系數。可以看到,皮爾遜相關系數就是用協方差除以兩個變量的標准差得到的。
