1. 相關性度量
為了定量的描述線性相關性,統計學奠基人K. Pearson提出了Pearson相關系數、心理學家CE. Spearman提出了Spearman等級相關系數、統計學家M. Kendall提出了Kendall秩相關系數。這三種相關系數最具有代表性、應用也最廣泛,它們既有聯系又有不同,分別有不同的適用場景。
Pearson相關系數
Pearson相關系數 (Pearson correlation coefficient)用於度量兩個變量X、Y的相關性(線性相關),定義如下:
容易證明Pearson相關系數的取值范圍為[-1, 1]。
- 若為1意味着X和Y的數據點基本落在一條直線上,且Y隨X的增加而增加,換言之X和Y可以由直線方程來描述(線性正相關);
- 若為-1則表示X和Y線性負相關,Y隨X的增加而減少;
- 若為0,則說明二者沒有線性關系。
下圖給出了當Pearson相關系數為不同值時X和Y的散點圖(以下三張圖片均來自於Wikipedia):
Pearson相關系數有一個重要的數學特性是,因兩個變量的位置和尺度的變化並不會引起該系數的改變,即它該變化的不變量 (由符號確定)。也就是說,我們如果把X移動到a + bX和把Y移動到c + dY,其中a、b、c和d是常數,並不會改變兩個變量的相關系數(該結論在總體和樣本Pearson相關系數中都成立)。
Spearman相關系數
Spearman相關系數實際上就是將變量X和Y替換成其對應等級x, y的Pearson相關系數:
相較於Pearson相關系數,Spearman相關系數更能描述兩個變量之間的單調性的相關性,對於樣本中的顯著離群點更為不敏感。比如,下圖中變量X和Y的Pearson相關系數、Spearman相關系數分別為0.88與1,顯然Spearman相關系數更好地刻畫了兩個變量增長趨勢的相關性。
下圖更好地表現出了Spearman相關系數的抗噪音性:
Kendall相關系數
Kendall相關系數是另一種等級相關統計量,其主要思想是根據兩個變量序對的一致性 (concordance)來判斷相關性的。一致性序對 (concordant pair)定義如下:如果變量對\((X_i, Y_i)\)、\((X_j, Y_j)\)且\(i \neq j\)滿足當\(X_i < X_j\)時\(Y_i < Y_j\),或者當\(X_i > X_j\)時\(Y_i > Y_j\)。反之,則為非一致性序對。那么,Kendall相關系數的定義如下:
其中,\(P\)為一致性序對的個數,\(Q\)為非一致性序對個數,則\(P + Q = n(n-1/2)\),因此上式可改寫為
顯然\(\tau\)的取值范圍為[-1, 1],
- 當等於1時,表示兩個變量擁有一致的等級相關性;
- 當等於-1時,表示兩個變量擁有完全相反的等級相關性;
- 當等於0時,兩個變量相互獨立。
下表給出了UV分別與PV、活躍用戶數、新增內容用戶數的三種相關性度量:
指標 | Pearson相關系數 | Spearman相關系數 | Kendall相關系數 |
---|---|---|---|
PV | 0.85684 | 0.95513 | 0.84884 |
活躍用戶數 | 0.88462 | 0.94131 | 0.83403 |
新增內容用戶數 | 0.32988 | 0.38259 | 0.25761 |
可以發現:三種度量在這三對變量上沒有明顯的優劣;PV、活躍用戶數都與UV成正向相關,且新增內容用戶數與UV沒有明顯的相關性——這一點在變量的散點圖中可以得到印證。
2. 參考資料
[1] 樊嶸, 孟大志, and 徐大舜. "統計相關性分析方法研究進展." 數學建模及其應用 3.1(2014).
[2] 王鵬, 數據相關性挖掘大講堂:(一) 線性相關評價方法.