機器學習的入門,我們需要的一些基本概念:
機器學習的定義
M.Mitchell《機器學習》中的定義是:
對於某類任務T和性能度量P,如果一個計算機程序在T上以P衡量的性能隨着經驗E而自我完善,那么我們稱這個計算機程序從經驗E中學習。
算法分類
兩張圖片很好的總結了(機器學習)的算法分類:
SKLearn算法選擇
評估指標
分類(Classification)算法指標:
- Accuracy准確率
- Precision精確率
- Recall召回率
- F1 score
對於分類問題的結果可以用下表表示(說明:True或者False代表預測結果是否正確,Positive和Negative代表被程序找出的結果):
Accuracy准確率
准確率的定義是對於給定的測試數據集,分類器正確分類的樣本數與總樣本數之比。公式為:
准確率存在准確率悖論的缺陷,參考這里的具體說明。
Precision精確率
精確率是從預測結果的角度來考察。精確率計算的是: 預測結果中符合實際值的比例,可以理解為沒有“誤報”的情形,公式為:
Recall 召回率
召回率是從原來的樣本角度考察。召回率計算的是:正確分類的數量與所有“應該”被正確分類(符合目標標簽)的數量的比例,可以理解為召回率對應的沒有“漏報”的情形。公式為:
F1 score
F1 值是精確率和召回率的調和均值,定義為:
即,
應用場景:
准確率和召回率是互相影響的,理想情況下肯定是做到兩者都高,但是一般情況下准確率高、召回率就低,召回率低、准確率高,當然如果兩者都低,那是什么地方出問題了。當精確率和召回率都高時,F1的值也會高。在兩者都要求高的情況下,可以用F1來衡量。
- 地震的預測
對於地震的預測,我們希望的是RECALL非常高,也就是說每次地震我們都希望預測出來。這個時候我們可以犧牲PRECISION。情願發出1000次警報,把10次地震都預測正確了;也不要預測100次對了8次漏了兩次。 - 嫌疑人定罪
基於不錯怪一個好人的原則,對於嫌疑人的定罪我們希望是非常准確的。及時有時候放過了一些罪犯(recall低),但也是值得的。
回歸(Regression)算法指標:
- Mean Absolute Error平均絕對偏差
- Mean Squared Error均方誤差
- R2 score
- Explained Variance Score
平均絕對誤差
公式:
均方誤差
公式:
R2 score
即“Coefficient of determination"決定系數,判斷的是預測模型和真實數據的擬合程度,最佳值為1,可為負值。
y
Explained Variance Score
Reference
【2】:機器學習概念參考:http://underthehood.blog.51cto.com/2531780/577854
【3】:機器學習總結: 鏈接