機器學習中的度量——相關系數


      機器學習是時下流行AI技術中一個很重要的方向,無論是有監督學習還是無監督學習都使用各種“度量”來得到不同樣本數據的差異度或者不同樣本數據的相似度。良好的“度量”可以顯著提高算法的分類或預測的准確率,本文中將介紹機器學習中各種“度量”,“度量”主要由兩種,分別為距離、相似度和相關系數,距離的研究主體一般是線性空間中點;而相似度研究主體是線性空間中向量;相關系數研究主體主要是分布數據。本文主要介紹相關系數。

1 皮爾遜相關系數——常用的相關系數

      機在統計學中,皮爾遜相關系數(earson correlation coefficient)用於度量兩個變量X和Y之間的相關程度(線性相關),其值介於-1與1之間。在自然科學領域中,該系數廣泛用於度量兩個變量之間的線性相關程度。它是由卡爾·皮爾遜從弗朗西斯·高爾頓在19世紀80年代提出的一個相似卻又稍有不同的想法演變而來。
對於總體(由許多有某種共同性質的事物組成的集合),給定隨機變量(X, y),總體皮爾遜相關系數的定義為

\[{\rho _{X,Y}}{\rm{ = }}\frac{{{\mathop{\rm cov}} \left( {X,Y} \right)}}{{{\sigma _X}{\sigma _Y}}}{\rm{ = }}\frac{{E\left( {\left( {X - {\mu _X}} \right)\left( {Y - {\mu _Y}} \right)} \right)}}{{{\sigma _X}{\sigma _Y}}} \]

      機其中cov(X,Y)是隨機變量X和隨機變量Y之間的協方差
      機σx是隨機變量X的方差
      機σy是隨機變量Y的方差
      機μx是隨機變量X的均值
      機μy是隨機變量Y的均值

      機對於同樣本來說,給定樣本對{(x1, y1), (x2,y2), …, (xn, yn)} ,樣本皮爾遜相關系數的定義為

\[{r_{x,y}}{\rm{ = }}\frac{{\sum\limits_{i = 1}^n {\left( {{x_i} - \bar x} \right)\left( {{y_i} - \bar y} \right)} }}{{\sqrt {\sum\limits_{i = 1}^n {{{\left( {{x_i} - \bar x} \right)}^2}} } \sqrt {\sum\limits_{i = 1}^n {{{\left( {{y_i} - \bar y} \right)}^2}} } }} = \frac{{n\sum\limits_{i = 1}^n {{x_i}{y_i}} - \sum\limits_{i = 1}^n {{x_i}} \sum\limits_{i = 1}^n {{y_i}} }}{{\sqrt {n\sum\limits_{i = 1}^n {x_i^2} - {{\left( {\sum\limits_{i = 1}^n {{x_i}} } \right)}^2}} \sqrt {n\sum\limits_{i = 1}^n {y_i^2} - {{\left( {\sum\limits_{i = 1}^n {{y_i}} } \right)}^2}} }} \]

      機其中n是樣本數量
      機Xi, yi是第i個獨立的樣本數據
      機x是所有xi的均值
      機y是所有yi的均值


圖1 具有不同相關系數值(ρ)的散點圖示例

圖2 幾組點集的相關系數

2 Phi相關系數——二元變量的相關性

      機在統計學里,“Phi相關系數”(Phi coefficient)(符號表示為φ)是測量兩個二元變數之間相關性的工具,由卡爾·皮爾森所發明 [1]。他也發明了與Phi相關系數有密切關聯的皮爾森卡方檢定(Pearson's chi-squared test。一般所稱的卡方檢驗),以及發明了測量兩個連續變數之間相關程度的皮爾森相關系數。Phi相關系數在機器學習的領域又稱為Matthews相關系數。

      機首先將兩個變數排成2×2列聯表,注意 1 和 0 的位置必須如同下表,若只變動 X 或只變動 Y 的 0/1 位置,計算出來的Phi相關系數會正負號相反。Phi相關系數的基本概念是:兩個二元變數的觀察值若大多落在2×2列聯表的“主對角線”字段,亦即若觀察值大多為(X,Y) =(1,1), (0,0)這兩種組合,則這兩個變數呈正相關。反之,若兩個二元變數的觀察值大多落在“非對角線”字段,對應於2×2列聯表,亦即若觀察值大多為(X,Y) =(0,1), (1,0)這兩種組

Y=1 Y=0 總計
X=1 n11 n10 a1
X=2 n01 n00 a2
總計 b1 b2 n

      機其中 n11, n10, n01, n00都是非負數的字段計次值,它們加總為n ,亦即觀察值的個數。由上面的表格可以得出 X 和 Y 的 Phi相關系數如下:

      機一個簡單的實例:研究者欲觀察性別與慣用手的相關性。虛無假設是:性別與慣用手無相關性。觀察對象是隨機抽樣出來的個人,身上有兩個二元變數(性別 X ,慣用手 Y),X 有兩種結果值(男=1/女=0),Y也有兩種結果值(右撇子=1/左撇子=0)。觀察兩個二元變數的相關性可以使用Phi相關系數。假設簡單隨機抽樣100人,得出如下的2×2列聯表:

男=1 女=0 總計
右=1 43 44 87
左=2 7 6 13
總計 50 50 100

      機假設−0.0297相關系數檢定為顯著,在本例對變數 1/0 的指定下,代表身為男性與身為右撇子有輕微的負相關,也就是男性右撇子的比例略低於女性右撇子的比例;或者反過來說,男性左撇子的比例略高於女性左撇子的比例。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM