線性相關性度量


1. 相關性度量

為了定量的描述線性相關性,統計學奠基人K. Pearson提出了Pearson相關系數、心理學家CE. Spearman提出了Spearman等級相關系數、統計學家M. Kendall提出了Kendall秩相關系數。這三種相關系數最具有代表性、應用也最廣泛,它們既有聯系又有不同,分別有不同的適用場景。

Pearson相關系數

Pearson相關系數 (Pearson correlation coefficient)用於度量兩個變量X、Y的相關性(線性相關),定義如下:

\[r = \frac{\sum_{i=1}^n (X_i - \overline{X}) (Y_i - \overline{Y})}{\sqrt{\sum_{i}(X_i - \overline{X})^2} \sqrt{\sum_{i}(Y_i - \overline{Y})^2}} \]

容易證明Pearson相關系數的取值范圍為[-1, 1]。

  • 若為1意味着X和Y的數據點基本落在一條直線上,且Y隨X的增加而增加,換言之X和Y可以由直線方程來描述(線性正相關);
  • 若為-1則表示X和Y線性負相關,Y隨X的增加而減少;
  • 若為0,則說明二者沒有線性關系。

下圖給出了當Pearson相關系數為不同值時X和Y的散點圖(以下三張圖片均來自於Wikipedia):

Pearson相關系數有一個重要的數學特性是,因兩個變量的位置和尺度的變化並不會引起該系數的改變,即它該變化的不變量 (由符號確定)。也就是說,我們如果把X移動到a + bX和把Y移動到c + dY,其中a、b、c和d是常數,並不會改變兩個變量的相關系數(該結論在總體和樣本Pearson相關系數中都成立)。

Spearman相關系數

Spearman相關系數實際上就是將變量X和Y替換成其對應等級x, y的Pearson相關系數:

\[\rho = \frac{\sum_{i=1} (x_i - \overline{x}) (y_i - \overline{y})}{\sqrt{\sum_{i}(x_i - \overline{x})^2} \sqrt{\sum_{i}(y_i - \overline{y})^2}} \]

相較於Pearson相關系數,Spearman相關系數更能描述兩個變量之間的單調性的相關性,對於樣本中的顯著離群點更為不敏感。比如,下圖中變量X和Y的Pearson相關系數、Spearman相關系數分別為0.88與1,顯然Spearman相關系數更好地刻畫了兩個變量增長趨勢的相關性。

下圖更好地表現出了Spearman相關系數的抗噪音性:

Kendall相關系數

Kendall相關系數是另一種等級相關統計量,其主要思想是根據兩個變量序對的一致性 (concordance)來判斷相關性的。一致性序對 (concordant pair)定義如下:如果變量對\((X_i, Y_i)\)\((X_j, Y_j)\)\(i \neq j\)滿足當\(X_i < X_j\)\(Y_i < Y_j\),或者當\(X_i > X_j\)\(Y_i > Y_j\)。反之,則為非一致性序對。那么,Kendall相關系數的定義如下:

\[\tau = \frac{P - Q}{n(n-1)/2} \]

其中,\(P\)為一致性序對的個數,\(Q\)為非一致性序對個數,則\(P + Q = n(n-1/2)\),因此上式可改寫為

\[\tau = \frac{4P}{n(n-1)/2} -1 \]

顯然\(\tau\)的取值范圍為[-1, 1],

  • 當等於1時,表示兩個變量擁有一致的等級相關性;
  • 當等於-1時,表示兩個變量擁有完全相反的等級相關性;
  • 當等於0時,兩個變量相互獨立。

下表給出了UV分別與PV、活躍用戶數、新增內容用戶數的三種相關性度量:

指標 Pearson相關系數 Spearman相關系數 Kendall相關系數
PV 0.85684 0.95513 0.84884
活躍用戶數 0.88462 0.94131 0.83403
新增內容用戶數 0.32988 0.38259 0.25761

可以發現:三種度量在這三對變量上沒有明顯的優劣;PV、活躍用戶數都與UV成正向相關,且新增內容用戶數與UV沒有明顯的相關性——這一點在變量的散點圖中可以得到印證。

2. 參考資料

[1] 樊嶸, 孟大志, and 徐大舜. "統計相關性分析方法研究進展." 數學建模及其應用 3.1(2014).
[2] 王鵬, 數據相關性挖掘大講堂:(一) 線性相關評價方法.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM