一 、皮爾遜相關性
在統計學中,皮爾遜相關系數( Pearson correlation coefficient),又稱皮爾遜積矩相關系數(Pearson product-moment correlation coefficient,簡稱 PPMCC或PCCs),是用於度量兩個變量X和Y之間的相關(線性相關),其值介於-1與1之間。
它是由卡爾·皮爾遜從弗朗西斯·高爾頓在19世紀80年代提出的一個相似卻又稍有不同的想法演變而來的。這個相關系數也稱作“皮爾遜積矩相關系數”。
定義


相關系數
0.8-1.0 極強相關
0.6-0.8 強相關
0.4-0.6 中等程度相關
0.2-0.4 弱相關
0.0-0.2 極弱相關或無相關
0.6-0.8 強相關
0.4-0.6 中等程度相關
0.2-0.4 弱相關
0.0-0.2 極弱相關或無相關
使用條件
當兩個變量的標准差都不為零時,相關系數才有定義,皮爾遜相關系數適用於:
(1)、兩個變量之間是線性關系,都是連續數據。
(2)、兩個變量的總體是正態分布,或接近正態的單峰分布。
(3)、兩個變量的觀測值是成對的,每對觀測值之間相互獨立。
二、肯德爾相關性(kendall)
Kendall(肯德爾)系數的定義:n個同類的統計對象按特定屬性排序,其他屬性通常是亂序的。同序對(concordant pairs)和異序對(discordant pairs)之差與總對數(n*(n-1)/2)的比值定義為Kendall(肯德爾)系數。
R=(P-(n*(n-1)/2-P))/(n*(n-1)/2)=(4P/(n*(n-1)))-1
適用性
肯德爾相關系數與斯皮爾曼相關系數對數據條件的要求相同
三、斯皮爾曼相關性(spearman)
兩個變量的依賴性的 非參數 指標。 它利用單調方程評價兩個統計變量的相關性。 如果數據中沒有重復值, 並且當兩個變量完全單調相關時,斯皮爾曼相關系數則為+1或−1。
斯皮爾曼相關系數被定義成等級變量之間的
皮爾遜相關系數。對於樣本容量為
n的樣本,
n個原始數據被轉換成等級數據,相關系數ρ為


四、三大相關性選擇
http://www.datasoldier.net/archives/716
擴展:
期望值分別為
E[
X]與
E[
Y]的兩個實隨機變量
X與
Y之間的協方差
Cov(X,Y)定義為:
