常見的損失函數

本文轉載自查看原文 2022-02-15 18:00 748

在深度學習中，損失函數扮演着至關重要的角色。通過對最小化損失函數，使模型達到收斂狀態，減少模型預測值的誤差。因此，不同的損失函數，對模型的影響是重大的。接下來，總結一下，在工作中經常用到的損失函數：

圖像分類：交叉熵
目標檢測：Focal loss，L1/L2損失函數，IOU Loss，GIOU ，DIOU，CIOU
圖像識別：Triplet Loss，Center Loss，Sphereface，Cosface，Arcface

圖像分類

交叉熵

在圖像分類中，經常使用softmax+交叉熵作為損失函數，具體的推導可以參考我以前的博客。

C r o s s E n t r o p y = - \sum i = 1 n p (x i) l n (q (x i))

其中，

后來，谷歌在交叉熵的基礎上，提出了label smoothing（標簽平滑），具體介紹，可以參考這篇博客。

在實際中，需要用預測概率去擬合真實概率，而擬合one-hot的真實概率函數會帶來兩個問題：

無法保證模型的泛化能力，容易造成過擬合；

全概率和0概率鼓勵所屬類別和其他類別之間的差距盡可能加大，而由梯度有界可知，這種情況很難adapt，會造成模型過於相信預測的類別。

因此，為了減少這種過於自信，同時減緩人為標注的誤差帶來的影響，需要對

$p' (x) = (1 - ϵ) δ (k, y) + ϵ u (k)$

其中，

$H (p', q) = - \sum i = 1 n p' (x i) l n (q (x i)) = (1 - ϵ) H (p$

目標檢測

最近，看到一篇很好的博文，是介紹目標檢測中的損失函數的，可以參考一下：https://mp.weixin.qq.com/s/ZbryNlV3EnODofKs2d01RA

在目標檢測中，損失函數一般由兩部分組成，classification loss和bounding box regression loss。calssification loss的目的是使類別分類盡可能正確；bounding box regression loss的目的是使預測框盡可能與GT框匹對上。

Focal loss

該Focal loss損失函數出自於論文《Focal Loss for Dense Object Detection》，主要是解決正負樣本之間的不平衡問題。通過降低easy example中的損失值，間接提高了hard example中損失值的權重。Focal loss是基於交叉熵進行改進的：

F o c a l l o s s = - α t (1 - p t) γ l o g (p t)

可以看到，在交叉熵前增加了

L1，L2，smooth L1損失函數

利用L1,L2或者smooth L1損失函數，來對4個坐標值進行回歸。smooth L1損失函數是在Fast R-CNN中提出的。三個損失函數，如下所示：

L 1 = | x |

L 2 = x 2

s m o o t h L 1 = {0.5 x 2

從損失函數對x的導數可知：

在一般的目標檢測中，通常是計算4個坐標值與GT框之間的差異，然后將這4個loss進行相加，構成regression loss。

但使用上述的3個損失函數，會存在以下的不足：

上面的三種Loss用於計算目標檢測的Bounding Box Loss時，獨立的求出4個點的Loss，然后進行相加得到最終的Bounding Box Loss，這種做法的假設是4個點是相互獨立的，實際是有一定相關性的；

實際評價框檢測的指標是使用IOU，這兩者是不等價的，多個檢測框可能有相同大小的Loss，但IOU可能差異很大，為了解決這個問題就引入了IOU LOSS

IOU Loss

該IOU Loss是曠視在2016年提出的《UnitBox: An Advanced Object Detection Network》。該論文的主要觀點之一是：

使用基於歐式距離的L-n損失函數，其前提是假設4個坐標變量都是獨立的，但實際上，這些坐標變量是具有一定的關聯性。
評價指標使用了IOU，而回歸坐標框又使用4個坐標變量，這兩者是不等價的。
具有相同的歐式距離的框，其IOU值卻不是唯一的。

所以，提出了IOU loss，直接使用IOU作為損失函數：

L o s s I O U = - l n (I O U)

同時，也會有人使用的是：

L o s s I O U = 1 - I O U

GIOU

該GIOU Loss損失函數是斯坦福於2019年提出的《Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression》。在上面的IOU Loss中，無法對兩個不重疊的框進行優化，而且IOU Loss無法反映出兩個框到底距離有多遠。為了解決這個問題，作者提了GIOU來作為損失函數：

G I O U = I O U - C - ( A ⋃ B ) C

其中，

GIOU具有以下的性質：

GIOU可以作為一種衡量距離的方式，
GIOU具有尺度不變性
GIOU是IOU的下限，
當矩形框A、B重疊時，
當矩形框A、B不相交時，

總的來說，GIOU包含了IOU所有的優點，同時克服了IOU的不足。

DIOU和CIOU

DIOU和CIOU是天津大學於2019年提出的《Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression》。為了解決GIOU收斂慢和提高回歸精度，提出DIOU來加速收斂。同時考慮到框回歸的3個幾何因素（重疊區域，中心點距離，寬高比），基於DIOU，再次提出CIOU，進一步提高收斂速度和回歸精度。另外，可以將DIOU結合NMS組成DIOU-NMS，來對預測框進行后處理。

當出現下圖的情況（GT框完全包含預測框）時，IOU與GIOU的值相同，此時GIOU會退化成IOU，無法區分其相對位置關系。同時由於嚴重依賴於IOU項，GIOU會致使收斂慢。

基於上述問題，作者提出兩個問題

直接最小化預測框與目標框之間的歸一化距離是否可行，以達到更快的收斂速度。

如何使回歸在與目標框有重疊甚至包含時更准確、更快

好的目標框回歸損失應該考慮三個重要的幾何因素：重疊面積，中心點距離，長寬比。基於問題一，作者提出了DIoU Loss，相對於GIoU Loss收斂速度更快，該Loss考慮了重疊面積和中心點距離，但沒有考慮到長寬比；針對問題二，作者提出了CIoU Loss，其收斂的精度更高，以上三個因素都考慮到了。

首先，定義一下基於IOU Loss的損失函數：

L o s s = 1 - I O U + R (B, B g t)

其中，

而在DIOU中，該懲罰項

因此，

L o s s G I O U = 1 - I O U + ρ 2 ( b , b g t ) c 2

所以，

DIOU依然具有尺度不變性；
DIOU直接最小化兩個框的距離，因此收斂會更快；
對於目標框包裹預測框的這種情況，DIoU Loss可以收斂的很快，而GIoU Loss此時退化為IoU Loss收斂速度較慢

DIOU同時考慮了重疊面積和中心點之間的距離，但是沒有考慮到寬高比。進一步提出了CIOU，同時考慮了這3個因素，在DIOU的懲罰項中加入了

R (B, B g t) = R C I O U = ρ 2 ( b , b g t ) c 2 + α υ

其中，

υ = 4 π 2 ( a r c t a n w g t h g t - a r c t a n w h ) 2

α = υ ( 1 - I O U ) + υ

這里的

所以，CIOU的損失函數為：

L o s s C I O U = 1 - I O U + ρ 2 ( b , b g t ) c 2 + α υ

而在實際操作中，

另外，提醒一點的是，GIOU、CIOU、DIOU都是衡量方式，在使用時可以代替IOU。但是這里需要考慮的一個問題是，預測框與GT框的匹配規則問題。並不是說anchor一定會去匹配一個不重疊的GT框。類似於SSD中所說，anchor會選擇一個重疊最大的GT框進行預測，而這個重疊最大可以使用IOU、GIOU、CIOU、DIOU來進行衡量。

圖像識別

圖像識別問題，包含了行人重識別，人臉識別等問題。此類損失都是通用的，因此放在一起匯總。同樣，也看到一篇很好的博客介紹了大量人臉識別的損失函數：https://mp.weixin.qq.com/s/wJ-JNsUv60vXtGIV-mDrTA

Triplet Loss

該Triplet Loss損失函數提出於2015年的《FaceNet: A Unified Embedding for Face Recognition and Clustering》。該損失函數的主要想法是，拉近同一id之間的距離，擴大不同id之間的距離。如下圖所示，圖中的anchor與positive屬於同一id，即

使用數學公式進行表達，triplet loss想達到的效果是：

d (x a i, x p i) + α \leq d (x a i, x n i)

其中，

t r i p l e t

在實際中，通常使用在線訓練方式，選擇P的不同的id，每個id包含K張圖片，形成了

Center Loss

該Center Loss損失函數提出於《A Discriminative Feature Learning Approach for Deep Face Recognition》。為了提高特征的區分能力，作者提出了center loss損失函數，不僅能縮小類內差異，而且能擴大類間差異。

作者首先在MNIST數據集上進行試驗，將隱藏層的最后輸出維度改為2，使用softmax+交叉熵作為損失函數，將其結果可視化出來，如下圖所示。可以看出，交叉熵可以使每一類分開，數據分布呈射線形，但卻不夠區分性，即類內差異大。

因此，作者想要在保持數據的可分性前提下，進一步縮小類內之間的差異。為了達到這個目的，提出了center loss損失函數：

L C = 1 2 \sum i = 1 m ∥∥ x i - c y i ∥∥ 2 2

其中，

L = L S + λ L C = - \sum i = 1 m l o g e W T y i x i + b

其中，

在使用Center Loss損失函數時，需要引入兩個超參：

c t + 1 j = c t j - α Δ c t j

Sphereface

該Sphereface提出於《SphereFace: Deep Hypersphere Embedding for Face Recognition》，其也稱A-Softmax損失函數。作者認為，triplet loss需要精心構建三元組，不夠靈活；center loss損失函數只是強調了類內的聚合度，對類間的可分性不夠重視。因此，作者提出了疑問：基於歐式距離的損失函數是否適合模型學習到具有區分性的特征呢？

首先，重新看一下softmax loss損失函數（即softmax+交叉熵）：

L o s s i = - l o g ⎛⎝ e W T y i x i + b y i \sum j e

其中，

L m o d i f i e d - s o f t m a x = - l o g (e | | x i |

雖然使用modified-softmax損失函數可以學習到特征具有角度區分性，但這個區分力度仍然不夠大。因此，在

L a n g = - l o g (e | | x i | | c o s ( m θ y i

這樣，能擴大類間距離，縮小類內距離。

下圖是論文的實驗結果，從超球面的角度進行解釋，不同的m值的結果。其中，不同顏色的點表示不同的類別。可以看出，使用A-Softmax損失函數，會將學習到的向量特征映射到超球面上，

最后，給出該損失函數的實現方式，請參考這篇博客。

Cosface

該Cosface損失函數是由騰訊在2018年《CosFace: Large Margin Cosine Loss for Deep Face Recognition》中提出的。Cosface損失函數，也稱Large Margin Cosine Loss(LMCL)。從名字可以看出，通過對cos的間隔最大化，來實現擴大類間距離，縮小類內距離。

從softmax出發（與Sphereface類似），作者發現，為了實現有效的特征學習，

L n s = 1 N \sum i - l o g e s

其中ns表示歸一化版本的softmax loss，

L l m c = 1 N \sum i - l o g e s

其中，

下圖是作者的解釋圖。第一個表示正常的sotfmax loss，可以看出兩個類別的分類邊界具有重疊性，即區分性不強；第二個表示歸一化版本的softmax loss，此時邊界已經很明顯，相互沒有重疊，但是區分性不足；第三個表示A-softmax，此時橫縱坐標變成了

Arcface

該Arcface損失函數提出於《ArcFace: Additive Angular Margin Loss for Deep Face Recognition》。類似於Sphereface和Cosface，Arcface同樣需要令

L a r c f a c e = 1 N \sum i - l o g e s

下圖是Arcface的計算流程圖，首先對

通過對Sphereface、Cosface和Arcface進行整合，得到了統一的形式：

L = 1 N \sum i - l o g e s

此時，就可以對該損失函數進行魔改了，作者實驗得到，對於部分數據集，

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 常見的損失函數幾種常見的損失函數幾種常見損失函數幾種常見的損失函數幾種常見的損失函數機器學習中常見的損失函數機器學習中常見的損失函數 tf常見的損失函數（LOSS）匯總常見回歸和分類損失函數比較機器學習總結：幾種常見的損失函數（Loss function）