機器學習算法分類及其評估指標筆記


機器學習的入門,我們需要的一些基本概念:

機器學習的定義

M.Mitchell《機器學習》中的定義是:

對於某類任務T和性能度量P,如果一個計算機程序在T上以P衡量的性能隨着經驗E而自我完善,那么我們稱這個計算機程序從經驗E中學習。

 

算法分類

兩張圖片很好的總結了(機器學習)的算法分類:

6

 

SKLearn算法選擇

 

評估指標

分類(Classification)算法指標:

  • Accuracy准確率
  • Precision精確率
  • Recall召回率
  • F1 score

對於分類問題的結果可以用下表表示(說明:True或者False代表預測結果是否正確,Positive和Negative代表被程序找出的結果):

 

 

Accuracy准確率

准確率的定義是對於給定的測試數據集,分類器正確分類的樣本數與總樣本數之比。公式為:

准確率存在准確率悖論的缺陷,參考這里的具體說明。

Precision精確率

精確率是從預測結果的角度來考察。精確率計算的是: 預測結果中符合實際值的比例,可以理解為沒有誤報”的情形,公式為:

 

Recall 召回率

召回率是從原來的樣本角度考察。召回率計算的是:正確分類的數量與所有“應該”被正確分類(符合目標標簽)的數量的比例,可以理解為召回率對應的沒有漏報”的情形。公式為:

 F1 score

F1 值是精確率和召回率的調和均值,定義為:

即,

 

應用場景:

准確率和召回率是互相影響的,理想情況下肯定是做到兩者都高,但是一般情況下准確率高、召回率就低,召回率低、准確率高,當然如果兩者都低,那是什么地方出問題了。當精確率和召回率都高時,F1的值也會高。在兩者都要求高的情況下,可以用F1來衡量。

  1. 地震的預測
    對於地震的預測,我們希望的是RECALL非常高,也就是說每次地震我們都希望預測出來。這個時候我們可以犧牲PRECISION。情願發出1000次警報,把10次地震都預測正確了;也不要預測100次對了8次漏了兩次。
  2. 嫌疑人定罪
    基於不錯怪一個好人的原則,對於嫌疑人的定罪我們希望是非常准確的。及時有時候放過了一些罪犯(recall低),但也是值得的。

 

回歸(Regression)算法指標:

  • Mean Absolute Error平均絕對偏差
  • Mean Squared Error均方誤差
  • R2 score
  • Explained Variance Score
 平均絕對誤差

公式:

 

均方誤差

 

公式:

 

R2 score

即“Coefficient of determination"決定系數,判斷的是預測模型和真實數據的擬合程度,最佳值為1,可為負值。

y¯¯¯=1nni=1yi

 

Explained Variance Score

 

 

Reference

【1】:http://scikit-learn.org

【2】:機器學習概念參考:http://underthehood.blog.51cto.com/2531780/577854

【3】:機器學習總結: 鏈接


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM