在利用機器學習模型解決問題時,涉及到模型構建以及模型評估時,存在兩個重要的概念:
- 損失函數
- 評估指標
本文對二者做一簡要的明晰。
損失函數
機器學習多數算法都需要最大化或最小化一個函數,即“目標函數”。一般把最小化的一類函數稱為“損失函數”。
損失函數用於模型構建中(部分簡單模型構建不需要損失函數,如KNN),所以它用於指導模型的生成。
回歸類型常用損失函數
平均絕對值損失(MAE,L1損失)
平方損失(MSE,L2損失)
Huber損失
分類類型常用損失函數
交叉熵損失
指數損失
評估指標
評估機器學習算法模型,有些問題中損失函數可以直接作為評價指標(如回歸問題中,均方誤差(MSE)既可以用來指導模型構建,又可以在模型完成后評估模型性能)
評估指標用於模型構建后,所以它用於評價模型性能。
回歸類型常用評估指標
平均絕對誤差(Mean Absolute Error)
均方誤差(Mean Square Error)
根均方誤差(Root Mean Square Error)
R Squared
分類類型常用評估指標
混淆矩陣
Accuracy(准確率)
Precision(精准率)
Recall(召回率)
ROC-AUC
P-R曲線
小例子
- 假設某同學備戰高考,他給自己定下了一個奮斗的方向,即每周要把自己的各科總成績提高5分;經過多年的准備,終於在高考中取得了好成績(710分,總分750),被北大錄取。
- 分析上面的例子,該同學“每周要把自己的各科總成績提高5分”這個指導原則相當於目標函數,在這個指導原則的指引下,想必該同學的總分會越來越高,即模型被訓練的越來越好。
- 最終,該同學高考成績優異,相當於模型的測試效果良好,至於用從哪個角度評價這名同學,可以用其高考總分與750分的差距來衡量,也可以用其被錄取的大學的水平來衡量,這就如同模型的評估指標是多種多樣的,比如分類問題中的准確率、召回率等。
- 當然,模型的評估指標多樣,模型的損失函數也是多樣的;上例中,該同學可以將“每周要把自己的各科總成績提高5分”作為指導原則,也可將“每周比之前多學2個知識點”作為指導原則。
- 另外,如果該同學將“每周模擬高考總分與750分的差距”同時作為指導原則與評價角度,則類似於線性回歸模型將“MSE均方誤差”同時作為損失函數與評估指標。
- 上例中,備考的“指導原則”相當於“損失函數”,“評價角度”相當於“評估指標”,該同學相當於一個機器學習模型。
