皮爾森相關系數算法


  皮爾森相關系數(Pearson correlation coefficient)也稱皮爾森積矩相關系數(Pearson product-moment correlation coefficient) ,是一種線性相關系數。皮爾森相關系數是用來反映兩個變量線性相關程度的統計量。相關系數用r表示,其中n為樣本量,分別為兩個變量的觀測值和均值。r描述的是兩個變量間線性相關強弱的程度。r的絕對值越大表明相關性越強。

定義

兩個變量之間的皮爾遜相關系數定義為兩個變量之間的協方差和標准差的商:

上式定義了總體相關系數,常用希臘小寫字母 ρ (rho) 作為代表符號。估算樣本的協方差和標准差,可得到樣本相關系數(樣本皮爾遜系數),常用英文小寫字母 r 代表:

r 亦可由
樣本點的標准分數均值估計,得到與上式等價的表達式:
其中
分別是對
樣本的標准分數、樣本平均值和樣本標准差。
 
公式詳解:
  樣本的簡單相關系數一般用r表示,其中n 為樣本量, 分別為兩個變量的觀測值和均值。r描述的是兩個變量間線性相關強弱的程度。r的取值在-1與+1之間,若r>0,表明兩個變量是正相關,即一個變量的值越大,另一個變量的值也會越大;若r<0,表明兩個變量是負相關,即一個變量的值越大另一個變量的值反而會越小。r 的絕對值越大表明相關性越強,要注意的是這里並不存在因果關系。若r=0,表明兩個變量間不是線性相關,但有可能是其他方式的相關(比如曲線方式)
  利用樣本相關系數推斷總體中兩個變量是否相關,可以用t 統計量對總體相關系數為0的原假設進行檢驗。若t 檢驗顯著,則拒絕原假設,即兩個變量是線性相關的;若t 檢驗不顯著,則不能拒絕原假設,即兩個變量不是線性相關的.
 

適用范圍

當兩個變量的標准差都不為零時,相關系數才有定義,皮爾遜相關系數適用於:

(1)兩個變量之間是線性關系,都是連續數據。

(2)兩個變量的總體是正態分布,或接近正態的單峰分布。

(3)兩個變量的觀測值是成對的,每對觀測值之間相互獨立。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM