Spearman秩相關系數和Pearson皮爾森相關系數


1、Pearson皮爾森相關系數

皮爾森相關系數也叫皮爾森積差相關系數,用來反映兩個變量之間相似程度的統計量。或者說用來表示兩個向量的相似度。

皮爾森相關系數計算公式如下:

  

分子是協方差,分母兩個向量的標准差的乘積。顯然是要求兩個向量的標准差不為零。

當兩個向量的線性關系增強時,相關系數趨於1(正相關)或者-1(負相關)。當兩個變量獨立時,相關系數為0。反之,不成立。比如對於,X服從[-1,1]上的均勻分布,此時E(XY)為0,E(X)也為0,所以但x和y明顯不獨立。所以“不相關”和“獨立”是兩回事。當Y 和X服從聯合正態分布時,其相互獨立和不相關是等價的。

對於居中(每個數據都剪去樣本均值,居中后他們的平均值就為0)的數據來說,E(X)=E(Y)=0,此時有:

 

 

即相關系數可以看作是兩個隨機變量的向量的夾角的cos函數。

進一步歸一化X和Y向量后,||X||=||Y||=1.相關系數即為兩個向量的乘積

 

2、Spearman秩相關系數

使用Pearson線性相關系數有兩個局限:

  (1)必須假設兩個向量必須服從正態分布

  (2)取值是等距的

對於更一般的情況有其他的一些解決方案,Spearman秩相關系數就是其中之一。Spearman秩相關系數是一種無參數(與分布無關)的檢驗方法,用於度量變量之間聯系的強弱。在沒有重復數據的情況下,如果一個變量是另一個變量的嚴格單調函數,則Spearman秩相關系數就是+1或者-1,稱變量完全Spearman秩相關。注意這和Pearson完全相關的區別:Pearson完全相關是只有當兩個變量線性關系時,Pearson相關系數為+1或者-1。

對原始數據xi,yi按從大到小排序,記x'i,y'i為原始xi,yi在排序后列表中的位置,x'i,y'i稱為xi,yi的秩次,秩次差di=x'i-y'i。Spearman秩相關系數為:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM