本文給出兩種相關系數,系數越大說明越相關。你可能會參考另一篇博客獨立性檢驗。
皮爾森相關系數
皮爾森相關系數(Pearson correlation coefficient)也叫皮爾森積差相關系數(Pearson product-moment correlation coefficient),是用來反應兩個變量相似程度的統計量。或者說可以用來計算兩個向量的相似度(在基於向量空間模型的文本分類、用戶喜好推薦系統中都有應用)。
皮爾森相關系數計算公式如下:
$\rho_{X,Y}=\frac{cov(X,Y)}{\sigma_{X}\sigma_{Y}}=\frac{E((X-\mu_X)(Y-\mu_Y))}{\sigma_{X}\sigma_{Y}}=\frac{E(XY)-E(X)E(Y)}{\sqrt{E(X^2)-E^2(X)}\sqrt{E(Y^2)-E^2(Y)}}$
分子是協方差,分母是兩個變量標准差的乘積。顯然要求X和Y的標准差都不能為0。
當兩個變量的線性關系增強時,相關系數趨於1或-1。正相關時趨於1,負相關時趨於-1。當兩個變量獨立時相關系統為0,但反之不成立。比如對於$y=x^2$,X服從[-1,1]上的均勻分布,此時E(XY)為0,E(X)也為0,所以$\rho_{X,Y}=0$,但x和y明顯不獨立。所以“不相關”和“獨立”是兩回事。當Y 和X服從聯合正態分布時,其相互獨立和不相關是等價的。
對於居中的數據來說(何謂居中?也就是每個數據減去樣本均值,居中后它們的平均值就為0),E(X)=E(Y)=0,此時有:
$\rho_{X,Y}=\frac{E(XY)}{\sqrt{E(X^2)}\sqrt{E(Y^2)}}=\frac{\frac{1}{N}\sum_{i=1}^N{X_{i}Y_{i}}}{\sqrt{\frac{1}{N}\sum_{i=1}^N{X_i^2}}\sqrt{\frac{1}{N}\sum_{i=1}^N{Y_i^2}}}=\frac{\sum_{i=1}^N{X_{i}Y_{i}}}{\sqrt{\sum_{i=1}^N{X_i^2}}\sqrt{\sum_{i=1}^N{Y_i^2}}}=\frac{\sum_{i=1}^N{X_{i}Y_{i}}}{||X|| ||Y||}$
即相關系數可以看作是兩個隨機變量中得到的樣本集向量之間夾角的cosine函數。
進一步當X和Y向量歸一化后,||X||=||Y||=1,相關系數即為兩個向量的乘積$\rho_{X,Y}=X\bullet{Y}$。
Spearman秩相關系數
首先說明秩相關系數還有其他類型,比如kendal秩相關系數。
使用Pearson線性相關系數有2個局限:
- 必須假設數據是成對地從正態分布中取得的。
- 數據至少在邏輯范圍內是等距的。
對於更一般的情況有其他的一些解決方案,Spearman秩相關系數就是其中一種。Spearman秩相關系數是一種無參數(與分布無關)檢驗方法,用於度量變量之間聯系的強弱。在沒有重復數據的情況下,如果一個變量是另外一個變量的嚴格單調函數,則Spearman秩相關系數就是+1或-1,稱變量完全Spearman秩相關。注意這和Pearson完全相關的區別,只有當兩變量存在線性關系時,Pearson相關系數才為+1或-1。
對原始數據xi,yi按從大到小排序,記x'i,y'i為原始xi,yi在排序后列表中的位置,x'i,y'i稱為xi,yi的秩次,秩次差di=x'i-y'i。Spearman秩相關系數為:
$\rho_s=1-\frac{6\sum{d_i^2}}{n(n^2-1)}$
| 位置 | 原始X | 排序后 | 秩次 | 原始Y | 排序后 | 秩次 | 秩次差 |
| 1 | 12 | 546 | 5 | 1 | 78 | 6 | 1 |
| 2 | 546 | 45 | 1 | 78 | 46 | 1 | 0 |
| 3 | 13 | 32 | 4 | 2 | 45 | 5 | 1 |
| 4 | 45 | 13 | 2 | 46 | 6 | 2 | 0 |
| 5 | 32 | 12 | 3 | 6 | 2 | 4 | 1 |
| 6 | 2 | 2 | 6 | 45 | 1 | 3 | -3 |
對於上表數據,算出Spearman秩相關系數為:1-6*(1+1+1+9)/(6*35)=0.6571
查閱秩相關系數檢驗的臨界值表
| n | 顯著水平 | |
| 0.05 | 0.01 | |
| 5 | 0.9 | 1 |
| 6 | 0.829 | 0.943 |
| 7 | 0.714 | 0.893 |
置信度=1-顯著水平。上表顯示在n=6的時候,當spearman秩相關系數>=0.829時我們有95%的置信度認為兩個隨機變量相關,當spearman秩相關系數>=0.943時我們有99%的置信度認為兩個隨機變量相關。由於0.6571<0.829,即置信度達不到95%,所以我們不能認為X和Y相關。
如果原始數據中有重復值,則在求秩次時要以它們的平均值為准,比如:
| 原始X | 秩次 | 調整后的秩次 |
| 0.8 | 5 | 5 |
| 1.2 | 4 | (4+3)/2=3.5 |
| 1.2 | 3 | (4+3)/2=3.5 |
| 2.3 | 2 | 2 |
| 18 | 1 | 1 |
Spearman秩相關系數應該是從秩和檢驗延伸過來的,因為它們很像。
相關性和相似度的區別
X=(1,2,3)跟Y=(4,5,6)的皮爾森相關系數等於1,說明X和Y是嚴格線性相關的(事實上Y=X+3)。
但是X和Y的相似度卻不是1,如果用余弦距離來度量,X和Y之間的距離明顯大於0。
