統計學三大相關系數---Pearson、Spearman、kendall / RMSE與實現(附代碼


算法實現:這里直接調庫

from scipy import stats
import numpy as np
val_PLCC = stats.pearsonr(y_pred, y_val)[0]
val_SROCC = stats.spearmanr(y_pred, y_val)[0]
val_RMSE = np.sqrt(((y_pred-y_val) ** 2).mean())
val_KROCC = stats.stats.kendalltau(y_pred, y_val)[0]

 



一、PLCC(Pearson linear correlation coefficient,皮爾森線性相關系數)

說明:
說明:PLCC描述了主觀評分和算法評分之間(正態分布)的線性相關性,值越大越好,衡量2個數據之間的變化大小。
相關系數的絕對值越大,相關性越強,相關系數越接近於1或-1,相關度越強,相關系數越接近於0,相關度越弱。

公式:

 

 


二、SRCC (Spearman rank-order correlation coefficient,斯皮爾曼秩相關系數)

說明:
度量兩個變量之間單調關系強弱的相關系數,如果一個變量是另外一個變量的嚴格單調函數,則系數為1或-1,表示完全相關(強相關),計算變量之間的 SRCC就相當於計算變量數據秩次之間的 Pearson 相關系數

公式:


舉例:
(斯皮爾曼等級相關系數同時也被認為是經過排行的兩個隨即變量的皮爾遜相關系數,以下實際是計算x、y的皮爾遜相關系數)
如下:當變量的兩個值相同時,它們的排行是通過對它們位置進行平均而得到的。排序之后,將Xi帶入上述公式即可。

 

三、KRCC(Kendall rank-order correlation coefficient,KROCC)

說明:
肯德爾相關系數是一個用來測量兩個隨機變量對之間的相關性的統計值

公式:

 

 


舉例:

假設兩個隨機變量分別為X、Y(也可以看做兩個集合),它們的元素個數均為N,兩個隨即變量取的第i(1<=i<=N)個值分別用Xi、Yi表示。元素集合可以表示為:(Xi, Yi)(1<=i<=N)。

(1)元素集合一致:同大同小當Xi>Xj且Yi>Yj 或者 Xi<Xj且Yi<Yj ,這兩個元素就被認為是一致的。
(2)元素集合不一致:不同大或不同小Xi>Xj且Yi<Yj 或者 Xi<Xj且Yi>Yj,這兩個元素被認為是不一致的。
(3) 不判斷:相等Xi=Xj 或者 Yi=Yj ,這兩個元素既不是一致的也不是不一致的

其中C表示XY中擁有一致性的元素對數(兩個元素為一對);D表示XY中擁有不一致性的元素對數。 帶入上述公式即可。

 

 

四、RMSE(Root Mean Squared Error, RMSE, 均方誤差)

說明:
說明:均方誤差,該均方根是觀察到的實際值與模型預測的值之間的均方差

公式:

 

 

 


————————————————
版權聲明:本文為CSDN博主「 楊楊」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/weixin_42699651/article/details/109534422

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM