人臉識別和檢測中loss學習 - 9 - ADDITIVE MARGIN SOFTMAX FOR FACE VERIFICATION- 1 - 論文學習


 

該方法通過減法的方式將邊際margin參數m引入softmax中,cosθ - m

原始的softmax loss函數為:

f表示的是最后一個全連接層的輸出(fi表示的是第i個樣本),Wj表示的是最后全連接層的第j列。WyiTfi被叫做target logit

在A-softmax損失函數中,則是會對權重向量進行歸一化,即||Wi|| = 1,並將target logit從 ||fi||cos(θyi) 改成 ||fi||ψ(θyi):

m通常是一個比1大的數,λ則是一個用來控制分類邊界多難推進的超參數,從1000退到一個小的值使得每個類的角度空間變得越來越緊湊(即類內距離)(annealing策略,退火策略

實驗中一般設置λ的最小值為5,且m=4;等價於λ=0,m=1.5,如圖2所示:

 

 

ADDITIVE MARGIN SOFTMAX

在我們的方法中定義:

其與A-Softmax中定的m的效果類似,可以達到減小對應標簽項的概率,增大損失的效果,因此對同一類的聚合更有幫助

對權重和特征都進行歸一化,添加一個歸一化層在全連接層后面:

 所以前向傳播只用計算:

 然后根據NormFace中的概念使用一個超參數s來scale這個cosine值,最后損失函數為:

當我們將margin(即m參數)引入損失函數后,我們發現如果讓s參數是可學習的,s將不會增加,且網絡擬合得很慢。因此打算將s固定在一個足夠大的值,即30,用來加速和固定優化器

 

λ的微調是比較困難的,在該margin策略中,我們發現我們不再需要該退火策略。而且即使我們固定了超參數m,網絡也能夠很靈活地擬合

 

 

3.2.1 GEOMETRIC INTERPRETATION

如圖3所示:

 特征是2維的。傳統的softmax loss的決策邊界為P0,有,角度邊際和余弦邊際是等價的

 

 對於我們的AM-softmax,邊界變為邊際區域而不是單一向量。對於類1的新邊界P1,我們有,其中

 如果我們進一步假設所有的類有着相同的類間方差且P2是類2的邊界,可以得到

因此,也就是第一類的余弦值在邊緣區域兩邊的差值

 

 

3.2.2 ANGULAR MARGIN OR COSINE MARGIN

 在SphereFace中,邊際m是與θ相乘的,即cos(mθ), 所以角度邊際是通過乘法的方式與損失合並的。我們提出的損失的邊際是通過附加的方式與損失合並的,即cosθ - m 。這是兩者最大的區別

還值得一提的是,除了強制邊際的方法不同,這兩種邊際公式的基值也不同。一個是θ,另一個是cosθ。雖然cosine邊際(cosθ)通常有着到角度邊際(θ)的一對一映射,但是因為cosine函數的非線形誘導,在優化他們的時候還是有一些不同的

我們是否使用cosine邊際主要取決於最后的損失函數優化使用的相似度度量方法(或距離)

很明顯,我們更改后的softmax loss優化的是cosine相似度,而不是角度。如果你使用的是傳統的softmax loss方法,這可能不是一個問題,因為這兩種形式的決策邊界是相同的 (cosθ1 = cosθ2 => θ1 = θ2)。但是當我們想要推進這個邊界的時候,我們將會面臨一個問題,即這兩個相似度(距離)有着不同的密度。cosine值在角度在接近0或π的時候更密集。

之所以選擇cosθ-m而不是cos(θ-m),是因為如果我們想要優化一個角度,在WTf這個內積值獲得之后將需要一個arccos操作。它的計算開銷可能會更大

一般來說,角邊際(SphereFace)在概念上比余弦邊際(本論文方法)好,但考慮到比較成本,余弦邊際更有吸引力,因為它可以用更少的努力實現相同的目標。

 

 

 

3.2.3 FEATURE NORMALIZATION

 

相比SphereFace,本方法添加了特征歸一化,為什么?

原因於圖像質量相關,從論文(L2-constrained Softmax Loss for Discriminative Face Verification)中圖1可見:

 

 

 特征范數||x||2與圖像的質量密切相關。注意后向傳播有如下的屬性:

 

 

可見在經過歸一化之后,對比於有着大的范數的特征,有着小的范數的特征將會得到更大的梯度

 

 

 

 這樣經過歸一化后,后向傳播時網絡將會更關注低質量的圖片(即有着低范數的圖片),這樣的效果和我們做困難樣本挖掘的效果是相同的,能夠使網絡訓練得更好

因此可知特征歸一化比較適合圖像質量比較差的任務

從圖4可知當特征范數特別小的時候,梯度可能特別大。這可能會潛在增加梯度爆炸的風險,雖然我們可能很難遇見很多有着很小范數的樣本

也許某些特征-梯度范數曲線位於圖4中兩條曲線之間的權重調整策略可能會有更好的效果。這是一個值得今后研究的有趣課題。

 

 

3.2.4 FEATURE DISTRIBUTION VISUALIZATION

在同樣的結構上使用不同的損失函數,輸出3維的特征。對於獲得的3維特征,歸一化並將他們繪制在三維空間的超球體上,如圖5:

 

 可見我們參數設置為s=10、m=0.2的AM-softmax的效果和SphereFace的效果相似。我們的損失能夠通過設置更大的m來進一步縮小類間方差。與A-softmax相比,有着恰當的scaling因子s的AM-softmax也更易於收斂。該可視化特征很好地說明了AM-softmax能夠給特征帶來更大的邊際屬性,而不需要過多的超參數

 

4.3 EFFECT OF HYPER-PARAMETER m

在我們的損失函數中有兩個超參數,一個是scale參數s,另一個是margin參數m。scale參數s在之前的工作中都經過了足夠的討論,認為設置為一個足夠大的值即可,20到30之間。因此我們的損失函數的主要超參數是margin參數m。當m=0.25到3時,性能顯著增強,當m=0.35到4時效果最好

  • 不使用特征歸一化,在高質量圖片集(LFW)上結果更好
  • 使用特征歸一化,在具有很多低質量的圖片集(MegaFace)上結果更好。

圖6繪制了兩個曲線,可見當rank和false positive rate很低的時候,我們的損失函數的性能都比其他的損失函數好:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM