皮爾森相關系數(Pearson correlation coefficient)


皮爾森相關系數也稱皮爾森積矩相關系數(Pearson product-moment correlation coefficient) ,是一種線性相關系數,是最常用的一種相關系數。記為r,用來反映兩個變量X和Y的線性相關程度,r值介於-1到1之間,絕對值越大表明相關性越強。

統計學術語:

期望值\(E(X)\) 表示隨機變量 \(X\)​ 的期望值。

標准差:反映一個數據集的離散程度,是方差的算術平方根。

總體標准差:

\[\sigma = \sqrt{\frac{\sum_{i=1}^n(x-\overset{-}{x})^2}{n}} \]

樣本標准差:

\[S = \sqrt{\frac{\sum_{i=1}^n(x-\overset{-}{x})^2}{n-1}} \]

協方差(Covariance):在概率論和統計學中用於衡量兩個變量的總體誤差。方差是協方差的一種特殊情況,即當兩個變量是相同的情況。

\[\begin{equation} \begin{aligned} Cov(X,Y) &= E[(X-E(X))(Y-E(Y))] \\ &= E(XY) - 2E(X)E(Y) + E(X)(Y) \\ &= E(XY) - E(X)E(Y) \end{aligned} \end{equation} \]

定義:

兩個變量之間的皮爾遜 相關系數定義為兩個變量之間的協方差和標准差的商:

\[\begin{equation} \begin{aligned} \rho_{X,Y} &= \frac{cov(X,Y)}{\sigma_X\sigma_Y} \\ &= \frac{E[(X-E(X))(Y-E(Y))]}{\sigma_X\sigma_Y} \end{aligned} \end{equation} \]

上式定義了總體相關系數,常用希臘小寫字母 \(\rho\)​​​​​​ 作為代表符號。估算樣本的協方差和標准差,可得到樣本相關系數(樣本皮爾遜系數),常用英文小寫字母 r 代表:

\[r=\frac{\sum_{i=1}^n(X_i-\overline{X})(Y_i-\overline{Y})}{\sqrt{\sum_{i=1}^n(X_i-\overline{X})^2}\sqrt{\sum_{i=1}^n(Y_i-\overline{Y})^2}} \]

\(r\) 亦可由\((X_i,Y_i)\)​​​樣本點的標准分數均值估計,得到與上式等價的表達式:

\[r=\frac{1}{n-1}\sum_{i=1}^n(\frac{X_i-\overline{X}}{\sigma_X})(\frac{Y_i-\overline{Y}}{\sigma_Y}) \]

其中 \(\frac{X_i-\overline{X}}{\sigma_X}\)​,\(\overline{X}\)​,\({\sigma_X}\)​ 分別是 \(X_i\)​ 樣本的標准分數、樣本平均值和樣本標准差。

物理意義

皮爾森相關系數反映了兩個變量的線性相關性的強弱程度,r的絕對值越大說明相關性越強。

當r>0時,表明兩個變量正相關,即一個變量值越大則另一個變量值也會越大;
當r<0時,表明兩個變量負相關,即一個變量值越大則另一個變量值反而會越小;
當r=0時,表明兩個變量不是線性相關的(注意只是非線性相關),但是可能存在其他方式的相關性(比如曲線方式);
當r=1和-1時,意味着兩個變量X和Y可以很好的由直線方程來描述,所有樣本點都很好的落在一條直線上。

本文整理自網絡


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM