皮爾森相關系數也稱皮爾森積矩相關系數(Pearson product-moment correlation coefficient) ,是一種線性相關系數,是最常用的一種相關系數。記為r,用來反映兩個變量X和Y的線性相關程度,r值介於-1到1之間,絕對值越大表明相關性越強。
統計學術語:
期望值:\(E(X)\) 表示隨機變量 \(X\) 的期望值。
標准差:反映一個數據集的離散程度,是方差的算術平方根。
總體標准差:
樣本標准差:
協方差(Covariance):在概率論和統計學中用於衡量兩個變量的總體誤差。方差是協方差的一種特殊情況,即當兩個變量是相同的情況。
定義:
兩個變量之間的皮爾遜 相關系數定義為兩個變量之間的協方差和標准差的商:
上式定義了總體相關系數,常用希臘小寫字母 \(\rho\) 作為代表符號。估算樣本的協方差和標准差,可得到樣本相關系數(樣本皮爾遜系數),常用英文小寫字母 r 代表:
\(r\) 亦可由\((X_i,Y_i)\)樣本點的標准分數均值估計,得到與上式等價的表達式:
其中 \(\frac{X_i-\overline{X}}{\sigma_X}\),\(\overline{X}\),\({\sigma_X}\) 分別是 \(X_i\) 樣本的標准分數、樣本平均值和樣本標准差。
物理意義
皮爾森相關系數反映了兩個變量的線性相關性的強弱程度,r的絕對值越大說明相關性越強。
當r>0時,表明兩個變量正相關,即一個變量值越大則另一個變量值也會越大;
當r<0時,表明兩個變量負相關,即一個變量值越大則另一個變量值反而會越小;
當r=0時,表明兩個變量不是線性相關的(注意只是非線性相關),但是可能存在其他方式的相關性(比如曲線方式);
當r=1和-1時,意味着兩個變量X和Y可以很好的由直線方程來描述,所有樣本點都很好的落在一條直線上。
本文整理自網絡