統計學習中的相關性
-
皮爾遜相關系數( Pearson correlation coefficient):
度量兩個變量X和Y之間的
相關(線性相關)
- 斯皮爾曼相關性系數(spearman correlation coefficient):
先將樣本轉化為等級變量,如90分為等級1,然后使用上面相關系數公式對等級進行相關性計算。
- 肯德爾和諧系數(kendall correlation coefficient):
表示多列等級變量相關程度的一種方法,檢測多個評價者對一群候選者的評價標准是否一致。


其中k表示評價者數量,n表示被評價者數量。Ri表示第i個被評價者的總等級。
其中mi表示第i個評價者的結果中有多少種是重復等級,t_ij表示第i個評價者的第j個重復等級的數量。
- 馬修斯相關系數(Matthews correlation coefficient):
機器學習中,用以測量二分類的分類性能的指標。該指標考慮了真陽性、真陰性和假陽性和假陰性,通常認為該指標是一個比較均衡的指標,即使是在兩類別的樣本含量差別很大時,也可以應用它。MCC本質上是一個描述實際分類與預測分類之間的相關系數,它的取值范圍為[-1,1],取值為1時表示對受試對象的完美預測,取值為0時表示預測的結果還不如隨機預測的結果,-1是指預測分類和實際分類完全不一致。
機器學習中的評價指標
回歸評估:
- MAE:平均絕對誤差,L1范數
- MSE:平均平方差,L2范數
- 解釋變異:

- 決定系數:

分類評估:
TP:預測為正向(P),實際上預測正確(T),即判斷為正向的正確率
TN:預測為負向(N),實際上預測正確(T),即判斷為負向的正確率
FP:預測為正向(P),實際上預測錯誤(F),誤報率,即把負向判斷成了正向
FN:預測為負向(N),實際上預測錯誤(F),漏報率,即把正向判斷稱了負向
- 准確率Accuracy:預測對的比上全部數據。正負樣本不平衡時這個評估不好。

- 查准率(precision):預測為正例的中,有多少比例為預測正確。

- 召回率(recall):也叫查全率。實際為正例的中,有多少比例為預測正確。

- F-值(F-Score):查全率與查准率加權調和平均。

當β=1時,即通常所說F1 score。

- 馬修斯相關系數MCC:見上面統計部分
- AUC(Area Under Curve):將橫坐標定為false positive rate(FPR),縱坐標定為true positive rate(TPR)。曲線下的面積作為衡量指標。表征任意一個正負樣本對中,將正樣本預測為正的概率值比預測為負的概率值還要大的可能性。FPR表示所有負例中,有多少被預測為正例。TPR表示所有正例中,有多少被預測為正例。
在固定橫坐標時,縱坐標越大,表明正例中預測為正例的越多(正例中的預測准確度越高)。固定縱坐標時,橫坐標越小,表示負例中被錯誤預測為正例的越少。綜合考慮,曲線越靠近y軸且高度越高,則表明分類效果越好,即AUC可以有效表征分類性能。

不畫圖也可以計算,假設總共有(m+n)個樣本,其中正樣本m個,負樣本n個,總共有m*n個正負樣本對。對每一個樣本對進行計數,如果正樣本預測為正樣本的概率值大於負樣本預測為正樣本的概率值,則結果加1,最后用結果除以(m*n)就是AUC的值。
- 對數損失:這個我們會經常用到。

yi表示真實標簽,另一個yi表示預測值。
-
鉸鏈損失(Hinge loss):不常用
假設二分類中,正例標記為+1,負例為-1,則loss為

- kappa系數:也是一種表示分類性能方法。Po表示正確分類的概率,Pe表示隨機分類的正確概率。

- 海明距離,傑卡德相似系數……
聚類
未完待續……
參考資料
https://www.cnblogs.com/ylHe/p/9336719.html
