淺談人臉識別中的loss 損失函數

本文轉載自查看原文 2019-10-03 11:06 1365 深度學習

淺談人臉識別中的loss 損失函數

2019-04-17 17:57:33 liguiyuan112 閱讀數 641更多

分類專欄： AI 人臉識別

本文鏈接： https://blog.csdn.net/u012505617/article/details/89355690

在人臉識別中，算法的提高主要體現在損失函數的設計上，損失函數會對整個網絡的優化有着導向性的作用。我們看到許多常用的損失函數，從傳統的softmax loss到cosface, arcface 都有這一定的提高，這篇文章自己就來整理下這幾個算法。

無論是SphereFace、CosineFace還是ArcFace的損失函數，都是基於Softmax loss來進行修改的。

Base line	Softmax loss
各種延伸的算法	Triplet loss, center loss
最新算法	A-Softmax Loss(SphereFace), Cosine Margin Loss, Angular Margin Loss, Arcface

1. Softmax loss

$\large L_1 = -\frac{1}{m}{\sum\limits_{i=1}^m}\log\left(\frac{e^{W^T_{y_i}x_i+b_{y_i}}}{ {\sum\limits_{j=1}^n}e^{W^T_jx_i+b_j} }\right)$

這就是softmax loss函數， ${W^T_{j}x_i+b_{j}}$ 表示全連接層的輸出。在計算Loss下降的過程中，我們讓 ${W^T_{j}x_i+b_{j}}$ 的比重變大，從而使得log() 括號內的數更變大來更接近1，就會 log(1) = 0，整個loss就會下降。

這種方式只考慮了能否正確分類，卻沒有考慮類間距離。所以提出了center loss 損失函數。(paper)

2. Center loss

$\large L_C = -\frac{1}{2}{\sum\limits_{i=1}^m}{||x_i-c_{y_i}||}^2$

$\large \Delta{c_j}=\frac{{\sum\limits_{i=1}^m}{\delta{(y_i=j)}\cdot{(c_j-x_i)}}}{1+{\sum\limits_{i=1}^m}{\delta{(y_i=j)}}}$

center loss 考慮到不僅僅是分類要對，而且要求類間有一定的距離。上面的公式中 $\large c_{y_i}$ 表示某一類的中心， $\large x_i$ 表示每個人臉的特征值。作者在softmax loss的基礎上加入了 $\large L_C$ ，同時使用參數 $\large \lambda$ 來控制類內距離，整體的損失函數如下：

$\large L_2=L_S+L_C= -\frac{1}{m}{\sum\limits_{i=1}^m}\log\left(\frac{e^{W^T_{y_i}x_i+b_{y_i}}}{ {\sum\limits_{j=1}^n}e^{W^T_jx_i+b_j} }\right)+\frac{\lambda}{2}{\sum\limits_{i=1}^m}{||x_i-c_{y_i}||}^2$

3. Triplet Loss

三元組損失函數，三元組由Anchor， Negative， Positive這三個組成。從上圖可以看到，一開始Anchor離Positive比較遠，我們想讓Anchor和Positive盡量的靠近（同類距離），Anchor和Negative盡量的遠離（類間距離）。

$\large L_3 = {\sum\limits_{i}^N}{\left [ ||f(x_i^a) - f(x_i^p)||^2_2 - ||f(x_i^a)-f(x_i^n)||_2^2 \right + \alpha ]}$

表達式左邊為同類距離，右邊為不同的類之間的距離。使用梯度下降法優化的過程就是讓類內距離不斷下降，類間距離不斷提升，這樣損失函數才能不斷地縮小。

上面的幾個算法都是比較傳統老舊的，下面說一下比較新的算法。

4. L-softmax

前面Softmax loss函數沒有考慮類間距離，Center loss函數可以使類內變得緊湊，但沒有類間可分，而Triplet loss函數比較耗時，就產生了一下新的算法。

L-softmax函數開始就做了比較精細的改動，從softmax 函數log里面的 $\large e^{W^T_{y_i}x_i+b_{y_i}$ 轉化到 $\large e^{||W_{yi}|| ||x_i||\psi{(\theta_{y_i})}}$ 。L-softmax函數不僅希望類間距離拉的更大，還能夠把類內距離壓縮的更緊湊。

$\LARGE L_4 = \frac{1}{N}\sum_{i=1}^N L_i = \frac{1}{N}\sum_{i=1}^N -log(\frac{e^{f_y_i}}{\sum_{j}e^{f_i}})$

$\LARGE L_i = -log(\frac{e^{||W_{yi}|| ||x_i||\psi{(\theta_{y_i})}}} {e^{||W_{yi}|| ||x_i||\psi{(\theta_{y_i})}} + \sum_{ j\neq y_i}{e^{||W_j|| ||x_i||cos(\theta_j)}}})$

把其中的cosθ改成了cos(mθ)，

$\large \psi(\theta) = \left\{\begin{matrix} \cos (m\theta ), 0\leqslant \theta \leqslant \frac{\pi }{m}& & \\ D(\theta), \frac{\pi}{m}\leqslant \theta \leqslant \pi & & \end{matrix}\right.$

m倍θ起到了增加 margin 的效果，讓類內距離更加緊湊，同時類間距離變大。m越大類間距離就越大，因為在(0, π)區間cos函數單調遞減，m越大 cos(mθ)趨向於0。

5. SphereFace(A-Softmax)

A-softmax 是在 L-softmax 函數上做了一個很小的修改，A-softmax 在考慮 margin時添加兩個限制條件：將權重W歸一化 ||W|| = 1 ，b = 0。這使得模型的預測僅取決於 W 和 X 之間的角度。

$\LARGE L_5 = -\frac{1}{N}\sum_{i=1}^{N}log( \frac{e^{||x_i||\cos(m\theta_{y_i})}} {e^{||x_i||\cos(m\theta_{y_i})} + \sum_{j \neq y_i}{e^{||x_i||cos(\theta_j)}}})$

6. CosFace

cosface的loss函數如下：

$\LARGE L_6 = -\frac{1}{N} \sum_{i=1}^{N} log( \frac{e^{s(cos(\theta_{yi})-m)}}{e^{s(cos(\theta_{yi})-m)}+ \sum_{j=1, j\neq y_i}^k e^{scos \theta_j}})$

上式中，s為超球面的半徑，m為margin。

7. ArcFace

對比arcface和cosface這兩個函數，發現arcface是直接在角度空間中最大化分類界限，而cosface是在余弦空間中最大化分類界限，這樣修改是因為角度距離比余弦距離在對角度的影響更加直接。

$\LARGE L_7= -\frac{1}{N} \sum_{i=1}^{N} log(\frac{e^{s(cos(\theta_{yi}+m))}}{e^{s(cos(\theta_{yi}+m))}+\sum_{j=1,j\neq y_i}^k e^{scos\theta_j}})$

分類的決策邊界如下：

arcface算法流程如下：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 人臉識別的損失函數人臉識別-arcface損失函數人臉識別損失函數疏理與分析人臉識別和檢測中loss學習 - 7 - SphereFace 人臉識別和檢測中loss學習 - 6 - center loss 損失函數（Loss Function）損失函數(Loss Function) -1 損失函數(Loss Function) -1 損失函數（Loss Function）損失函數(loss function)