皮爾遜、肯德爾、斯皮爾曼相關性


 一 、皮爾遜相關性

統計學中,皮爾遜相關系數( Pearson correlation coefficient),又稱皮爾遜積矩相關系數(Pearson product-moment correlation coefficient,簡稱 PPMCC或PCCs),是用於度量兩個變量X和Y之間的相關(線性相關),其值介於-1與1之間。

它是由卡爾·皮爾遜弗朗西斯·高爾頓在19世紀80年代提出的一個相似卻又稍有不同的想法演變而來的。這個相關系數也稱作“皮爾遜積矩相關系數”。

定義

兩個變量之間的皮爾遜相關系數定義為兩個變量之間的 協方差標准差的商:
上式定義了總體相關系數,常用希臘小寫字母   作為代表符號。估算 樣本的協方差和標准差,可得到皮爾遜相關系數,常用英文小寫字母   代表:
 
 亦可由   樣本點的 標准分數均值估計,得到與上式等價的表達式:
其中         分別是對  樣本的標准分數、樣本平均值和樣本標准差

相關系數    

0.8-1.0     極強相關
0.6-0.8     強相關
0.4-0.6     中等程度相關
0.2-0.4     弱相關
0.0-0.2     極弱相關或無相關

使用條件

當兩個變量的標准差都不為零時,相關系數才有定義,皮爾遜相關系數適用於:

(1)、兩個變量之間是線性關系,都是連續數據。

(2)、兩個變量的總體是正態分布,或接近正態的單峰分布。

(3)、兩個變量的觀測值是成對的,每對觀測值之間相互獨立。

 二、肯德爾相關性(kendall)

Kendall(肯德爾)系數的定義:n個同類的統計對象按特定屬性排序,其他屬性通常是亂序的。同序對(concordant pairs)和異序對(discordant pairs)之差與總對數(n*(n-1)/2)的比值定義為Kendall(肯德爾)系數。

R=(P-(n*(n-1)/2-P))/(n*(n-1)/2)=(4P/(n*(n-1)))-1

適用性

肯德爾相關系數與斯皮爾曼相關系數對數據條件的要求相同

 三、斯皮爾曼相關性(spearman)

兩個變量依賴性的 非參數 指標。 它利用單調方程評價兩個統計變量的相關性。 如果數據中沒有重復值, 並且當兩個變量完全單調相關時,斯皮爾曼相關系數則為+1或−1。

斯皮爾曼相關系數被定義成等級變量之間的 皮爾遜相關系數。對於樣本容量為 n的樣本, n個原始數據被轉換成等級數據,相關系數ρ為

 

原始數據依據其在總體數據中平均的降序位置,被分配了一個相應的等級。

 

 四、三大相關性選擇

http://www.datasoldier.net/archives/716


 

擴展:
協方差(Covariance)在概率論統計學中用於衡量兩個變量的總體誤差
期望值分別為 E[ X]與 E[ Y]的兩個實隨機變量 XY之間的協方差 Cov(X,Y)定義為:
期望:數學期望(mean)(或 均值,亦簡稱期望)是試驗中每次可能結果的 概率乘以其結果的總和
以下是數學期望的重要性質:
1.
2.
3.
4.當X和Y相互獨立時,
又常稱 均方差,是離均差平方的算術平均數的平方根,用σ表示

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM