機器學習中的損失函數（着重比較：hinge loss vs softmax loss）

本文轉載自查看原文 2018-04-02 11:40 2901 損失函數/ 數據挖掘及機器學習

https://blog.csdn.net/u010976453/article/details/78488279

1. 損失函數

損失函數（Loss function）是用來估量你模型的預測值 $f (x)$

θ * = arg min θ 1 N \sum i = 1 N L ( y i , f ( x i ; θ ) ) + λ Φ ( θ )

其中，前面的均值函數表示的是經驗風險函數， $L$

2. 常用損失函數

常見的損失誤差有五種：
1. 鉸鏈損失（Hinge Loss）：主要用於支持向量機（SVM）中；
2. 互熵損失（Cross Entropy Loss，Softmax Loss ）：用於Logistic 回歸與Softmax 分類中；
3. 平方損失（Square Loss）：主要是最小二乘法（OLS）中；
4. 指數損失（Exponential Loss）：主要用於Adaboost 集成學習算法中；
5. 其他損失（如0-1損失，絕對值損失）

2.1 Hinge loss

Hinge loss 的叫法來源於其損失函數的圖形，為一個折線，通用的函數表達式為：

L (m i) = m a x (0, 1 - m i (w))

$L$

Hinge Loss

在機器學習中，Hing 可以用來解間距最大化的問題，最有代表性的就是SVM 問題，最初的SVM 優化函數如下：

a r g m i n w, ζ 1 2 | | w | | 2 + C \sum i ζ i

$L$

ζ i \geq 1 - y i w T x i

$L$

J (w) = 1 2 | | w | | 2 + C \sum i m a x ( 0 , 1 -

$L$

2.2 Softmax Loss

有些人可能覺得邏輯回歸的損失函數就是平方損失，其實並不是。平方損失函數可以通過線性回歸在假設樣本是高斯分布的條件下推導得到，而邏輯回歸得到的並不是平方損失。在邏輯回歸的推導中，它假設樣本服從伯努利分布（0-1分布），然后求得滿足該分布的似然函數，接着取對數求極值等等。而邏輯回歸並沒有求似然函數的極值，而是把極大化當做是一種思想，進而推導出它的經驗風險函數為：最小化負的似然函數（即 $max F (y, f (x)) \to min - F (y, f (x)))$

log損失函數的標准形式：

L (Y, P (Y | X)) = - log P (Y | X)

$L$

邏輯回歸的 $P (Y = y | x)$

Logistic

其中

h θ (x) = 1 1 + exp ( - f ( x ) )

2.3 Squared Loss

最小二乘法是線性回歸的一種，OLS將問題轉化成了一個凸優化問題。在線性回歸中，它假設樣本和噪聲都服從高斯分布（中心極限定理），最后通過極大似然估計（MLE）可以推導出最小二乘式子。最小二乘的基本原則是：最優擬合直線應該是使各點到回歸直線的距離和最小的直線，即平方和最小。

平方損失（Square loss）的標准形式如下：

L (Y, f (X)) = (Y - f (X)) 2

當樣本個數為 $n$

L (Y, f (X)) = \sum i = 1 n (Y - f (X)) 2

$L$

在實際應用中，我們使用均方差（MSE）作為一項衡量指標，公式如下：

M S E = 1 n \sum i = 1 n ( Y i ~ - Y i ) 2

2.4 Exponentially Loss

損失函數的標准形式是：

L (Y, f (X)) = exp [- Y f (X)]

$L$

f m (x) = f m - 1 (x) + α m G m (x)

$L$

arg min α, G = \sum i = 1 N exp [- y i (f m - 1 (x i) + α G (x i))

$L$

L (Y, f (X)) = 1 2 \sum i = 1 n exp [ - y i f ( x I ) ]

$L$

2.5 其他損失

0-1 損失函數

L (Y, f (X)) = {01

$L$

L (Y, f (X)) = | Y - f (X) |

上述幾種損失函數比較的可視化圖像如下：

損失函數可視化

3. Hinge loss 與 Softmax loss

SVM和Softmax分類器是最常用的兩個分類器。

SVM將輸出 $f (x_{i}, W)$
與SVM 不同，Softmax 分類器可以理解為邏輯回歸分類器面對多個分類的一般話歸納，其輸出(歸一化的分類概率)更加直觀,且可以從概率上解釋。

在Softmax分類器中, 函數映射 $f (x_{i}, W)$

L i = - log (e f y i \sum j e f j )

$L$

L i = - f y i + log \sum j f j

$f_{j}$

概率論解釋:

P (y i | x i, W) = e f y i \sum j e f j

解釋為給定數據 $x_{i}$

實際操作注意事項——數值穩定: 編程實現softmax函數計算的時候,中間項 $e^{f_{y_{i}}}$

P (y i | x i, W) = C e f y i C \sum j e f j =

C的值可自由選擇,不會影響計算結果,通過這個技巧可以提高計算中的數值穩定性.通常將C設為:

log C = - max f j

該技巧就是將向量f中的數值進行平移,使得最大值為0。

准確地說，SVM分類器使用的是鉸鏈損失（hinge loss），有時候又被稱為最大邊界損失（max-margin loss）。Softmax分類器使用的是交叉熵損失（corss-entropy loss）。Softmax分類器的命名是從softmax函數那里得來的，softmax函數將原始分類評分變成正的歸一化數值，所有數值和為1，這樣處理后交叉熵損失才能應用。

Example：圖像識別

example

針對給出的圖像，SVM分類器可能給你的是一個 $[- 2.85, 0.86, 0.28]$

這里Hinge Loss計算公式為：

L i = \sum j \neq y i max (0, f (x i, W) j - f (x i, W)) y i + Δ

$L$

設 $x_{i}$

L i = max (0, - 2.85 - 0.28 + 1) + max (0, 0.86 - 0.28 + 1) = 1.58

$L$

delta

而Softmax 損失則是對向量 $f_{y_{i}}$

L i = - log (e f y i \sum j e f j ) = - log ( 0.353 ) \approx 1.04

4.總結

機器學習作為一種優化方法，學習目標就是找到優化的目標函數——損失函數和正則項的組合；有了目標函數的“正確的打開方式”，才能通過合適的機器學習算法求解優化。

不同機器學習方法的損失函數有差異，合理理解各種損失優化函數的的特點更有利於我們對相關算法的理解。

參考文獻

1. CS231n 課程
 2. 聊聊機器學習中的損失函數
 3. 知乎專欄-智能單元
 4. 機器學習-損失函數

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 損失函數 hinge loss vs softmax loss 機器學習中 margin loss 、hinge loss 和 ramp loss 的區別 SVM的損失函數（Hinge Loss) 損失函數總結以及python實現：hinge loss(合頁損失)、softmax loss、cross_entropy loss(交叉熵損失) 機器學習總結：幾種常見的損失函數（Loss function）機器學習-Loss函數-Triplet loss&Circle loss 損失函數：Hinge Loss（max margin）機器學習入門03 - 降低損失 (Reducing Loss) 【深度學習】一文讀懂機器學習常用損失函數（Loss Function）機器學習損失函數(Loss/Error Function)、代價函數(Cost Function)和目標函數(Objective function)

機器學習中的損失函數 （着重比較：hinge loss vs softmax loss）