人臉識別和檢測中loss學習 - 7 - SphereFace

本文轉載自查看原文 2020-03-17 11:59 827 深度學習

論文下載：http://openaccess.thecvf.com/content_cvpr_2017/papers/Liu_SphereFace_Deep_Hypersphere_CVPR_2017_paper.pdf

SphereFace: Deep Hypersphere Embedding for Face Recognition

softmax損失僅僅能夠學到分辨性不夠強的特征，除此之外，還有contrastive loss，center loss，triplet loss。

但是它們都在一定程度上存在弊端：

center loss僅能使得類內緊湊，無法使得類間可分。

contrastive loss和triplet loss需要pair/triplet 挖掘過程，增加時間的損耗。

除此之外，還有一個更關鍵之處：以上的損失函數都使用了歐式距離，而softmax損失學習到的特征有角度上的分布特性。

證明了softmax損失學習到的特征有角度上的分布特性，因此在這種意義上，歐式距離與softmax損失是不兼容的，所以作者認為結合softmax損失和歐式距離效果可能不是最佳的。

一步步修改損失：

1）modified softmax loss

傳統softmax loss損失函數為：

為了簡化計算，把偏置b設置為0，,然后權重和輸入的內積用下面式子表示：

因此為了將損失函數變換成僅受角度影響的公式，需要經過下面的幾個變換：

1》決策邊界

首先softmax loss的決策邊界（decision boundary）為：

(W₁ −W₂)x + b₁ − b₂ =0

其中W₁、W₂表示的是對應的權重矩陣中1、2對應的類的那一行；b₁、b₂同理；x即整個input輸入的特征向量

這個公式是因為其決策邊界是線性的。

證明：

假設決策邊界是線性的，那么會有：

1.首先在決策邊界上softmax對任意兩類的輸出概率是相等的。即對如上圖的任一邊界上的一點，softmax輸出的概率向量上，該點被判斷為邊界兩側的類的對應分量是相等的

這樣，通過計算可知：

z_i = W_i*x + b_i = z_j = W_j*x + b_j （這里W_i和W_j是權重矩陣第i,j行，i、j即邊界兩側的兩個類）

2.邊界是線性的等價於邊界上的任意兩個點X₁、X₂，他們的線形組合X₀=t*X₁+s*X₂ 仍然在決策邊界上，這里t+s=1

根據上面這兩個條件證明：

從softmax的決策邊界上任取兩點X₁,X₂

由上面的敘述1可知，W₁*x+b₁=W₂*x+b₂，即（W₁-W₂)*x=b₂-b₁

再任取一點X₀= t*X₁+ s*X₂，s+t = 1

則softmax對X₀的計算得z₁= W₁*X₀+ b₁, z₂= W₂*X₀+ b₂, 下面證明z₁=z₂：

z₁- z₂= W₁*X₀+ b₁- (W₂*X₀+ b₂) ，（代入X₀= t*X₁+ s*X₂）

= t*(W₁- W₂)*X₁+ s*(W₁- W₂)*X₂ + (b₁ - b₂) ，（代入（W₁-W₂)*x=b₂-b₁）

= t*(b₂-b₁) + s*(b₂-b₁) + (b1-b2)

= 0

所以，z1=z2，即證明X₀也在決策邊界上

2》約束條件

然后使用L2正則化處理W_j使得||W_j||=1，L2正則化就是將W_j向量中的每個值都分別除以W_j的模，從而得到新的W_j，新的W_j的模就是1：

說明該方法只歸一化了權重，而沒有歸一化特征向量

這樣根據式子：

可以將softmax loss損失函數變換為只與角度相關的公式：

||x|| (cos(θ_i) - cos(θ_j)) = 0

這里的θ_i是W_i和x之間的角度

通過這樣的損失函數學習，可以使得學習到的特征具有更明顯的角分布，因為決策邊界只與角有關

這樣修改后的損失函數modified softmax loss為：

x_i表示第i個訓練樣本，y_i為第i個訓練樣本的類別，W_j表示W的第j列，W_yi表示W的第y_i列，表示列是因為進行了轉置

2）A-softmax loss（angular softmax）

1》添加定量控制參數m

添加一個定量控制參數m（m>=1）到決策邊界上，這樣類1和類2的決策邊界為：

||x|| (cos(mθ₁) - cos(θ₂)) = 0，對於類1來說

和 ||x|| (cos(θ₁) - cos(mθ₂)) = 0，對於類2來說

m參數用來定量控制角度邊際

在modified softmax loss，對於一個來自類別1 的可學習特征向量x，θ_i是該x和W_i之間的角度，可知如果我們希望網絡能夠分類得到該x屬於類別1，那么就需要cos(θ₁) > cos(θ₂), 因為θ_i范圍為[0,Π],在這個范圍內cos()函數是遞減的，所以要求(θ₁) < (θ₂)

所以如果增加一個參數m，變為cos(mθ₁) > cos(θ₂) ， m >= 2 ,那么就希望訓練得到的θ₁更小，該類1的決策邊界為cos(mθ₁) = cos(θ₂)；同理cos(θ₁) < cos(mθ₂),也是希望訓練得到的θ₂更小，該類2的決策邊界為cos(θ₁) = cos(mθ₂)。這樣兩個類的分布中間就會隔着一個比較大的角度邊際，因為各自的角度都要乘以m才能到達邊界