本文來自《ArcFace: Additive Angular Margin Loss for Deep Face Recognition》,時間線為2018年1月。是洞見的作品,一作目前在英國帝國理工大學讀博。
CNN近些年在人臉識別上效果顯著,為了增強softmax loss的辨識性特征學習能力,Sphereface提出的multiplicative angular margin,參考文獻[43,44]提出的additive cosine margin等分別通過將角度邊際和余弦邊際整合到loss函數中。
本文中作者提出一個附加角度邊際(additive angular margin,ArcFace),比目前提出的監督信號有更好的幾何解釋。特別的,提出的ArcFace \(cos(\theta+m)\)直接最大化角度空間中的決策邊界,該角度空間是基於L2-norm的權重和特征生成的。與multiplicative angular margin(\(cos(m\theta)\))和additive cosine margin \((cos\theta-m)\)相比,ArcFace可以獲得更具辨識性的深度特征。
0 引言
不同的人臉識別方法主要在以下三個方面有差異:
訓練數據
目前主流的人臉數據集有VGG-Face, VGG2-Face, CAISA-WebFace, UMDFace, MS-Celeb-1M和MegaFace。其中MS-Celeb-1M和MegaFace雖然ID數量上很大,可是也受到標注噪音和長尾分布的影響。而之前谷歌的FaceNet中訓練的ID就幾百萬。因為訓練集量級的不同,工業界人臉識別的效果會好於學術界,而且因為人臉數據集的不同,很多論文效果也不能完全復現。
網絡結構和配置
如ResNet,Inception-ResNet可以獲得比VGG網絡和Inception v1更好的效果,不同人臉識別的應用主要在速度和精度之間權衡。例如移動端的人臉驗證,需要實時性的運行速度和緊湊的模型大小。而對於十億級別的安全系統,高准確度才是最重要的。
loss函數的設計
- 基於歐式邊際的loss:在最開始的人臉識別文獻如[31,42],基於一系列已知ID的數據集上訓練softmax,然后從網絡的中間層輸出特征向量,並用該向量去泛化訓練集中未知的ID數據。后續的Center loss[46], Range loss[50], Marginal loss[10]對最后softmax loss增加了額外的懲罰,使得網絡能壓縮類內變化,擴大類間變化,以此提升檢測率,但是他們仍然還是通過結合softmax 的方式去訓練網絡模型。基於分類的模型,當ID個數達到百萬級別時,分類層會大量消耗GPU內存,而且網絡本身更傾向平衡的,足夠(每個ID的樣本量)的訓練數據。
contrastive loss和triplet loss利用了圖像多元組的策略。contrastive loss需要正對和負對,loss的梯度會將正對拉近,負對推遠。triplet loss最小化錨和一個正樣本之間的距離,並最大化錨和一個負樣本之間的距離。然而,contrastive loss和triplet loss的訓練過程是需要技巧的,因為設計到訓練樣本的選擇。- 基於角度和余弦邊際的loss:L-Softmax通過增加multiplicative angular constraints到每個ID上,以提升特征辨識性。SphereFace \(cos(m\theta)\)基於L-Softmax,使用權重歸一化方式去深度人臉識別。因為余弦函數的非單調性,SphereFace引入一個分段(piece-wise )函數保證單調性。在SphereFace的訓練過程中,Softmax loss可以很容易的結合起來方便和確保收斂。為了解決SphereFace較難優化的問題,additive cosine margin \(cos(\theta)-m\)將角度邊際移動到余弦空間中,additive cosine margin比SphereFace更容易實現和優化。而且additive cosine margin也更容易復現,且TencentAILab FaceCNN v1用此方法在當時MegaFace獲得了第一名。相比於歐式邊際的loss,角度和余弦邊際loss是顯式的在一個超球面流行上增加辨識性約束。
如上所述,三個方面中,按影響程度從高到低排序是:數據>> 網絡>> loss。
本文也在這三個方面有所貢獻:
數據
作者提煉了當前可用的最大公開數據集MS-Celeb-1M,通過自動和手動兩種相結合。通過ResNet-27網絡和在NIST人臉識別挑戰賽上的marginal loss相結合,對MS1M數據集進行質量評估。作者發現在MegaFace一百萬個干擾物與FaceScrub數據集之間存在數百個重疊的人臉圖像,這會影響評估結果。所以從MegaFace干擾物中手動找到這些重疊的人臉。
網絡結構
以VGG2作為訓練數據,對卷積網絡配置進行了廣泛的對比實驗,並在LFW,CFP和AgeDB上驗證准確性。 所提出的網絡配置在較大的姿態和年齡變化下都有魯棒性的表現。並探討了最近提出的網絡結構上速度和准確性之間的權衡。
loss設計
提出一個新的loss函數,附加角度邊際(additive angular margin,ArcFace)

如圖1,提出的loss函數\(cos(\theta+m)\)直接最大化角度空間中的決策邊界,該角度空間是基於L2-norm的權重和特征生成的。可以發現ArcFace不知有更清晰的集合解釋,同時優於一些baseline方法,如multiplicative angular margin 和additive cosine margin,本文后面從半硬樣本分布上研究了為什么ArcFace要好於Softmax,SphereFace和CosineFace。
1 從softmax到ArcFace
1.1 sofmax
softmax函數是最廣泛使用的分類函數,其式子為:

這里\(x_i \in R^d\)表示第\(i\)個樣本的深度特征,屬於第\(y_i\)類。特征維度d在本文中為512[參考文獻23,43,46,50]。\(W_j \in R^d\)表示最后一層全連接層中權重矩陣\(W \in R^{d\times n}\)第\(j\)列,\(b\in R^n\)就是對應的偏置。batch-size和類別個數分別為m和n。
1.2 權重歸一化
為了簡潔,將偏置\(b_j=0\)。然后將目標logit轉換成如下式子:

然后通過L2-norm固定\(||W_j||=1\),這讓預測值以來特征向量和權重之間的角度:

在SphereFace中,L2權重歸一化基本沒什么提升。
1.3 Multiplicative Angular Margin
在SphereFace中,角度邊際m通過與角度相乘進入loss:

其中\(\theta_{y_i}\in [0, \frac{\pi}{m}]\),為了移除這個約束,\(cos(m\theta_{y_i})\)通過一個分段單調函數\(\psi (\theta_{y_i})\)代替,SphereFace式子寫成:

這里\(\psi (\theta_{y_i})=(-1)^kcos(m\theta_{y_i})-2k\),\(\theta_{y_i}\in \left [ \frac{k\pi}{m}, \frac{(k+1)\pi}{m}\right ]\),\(k \in [0, m-1]\),\(m \geq 1\)是整數,用於控制角度邊際的size。然而在SphereFace實現中,softmax有監督也會包含進去以保證訓練的收斂,且通過一個超參數\(\lambda\)去控制權重,在帶有額外softmax loss下,\(\psi(\theta_{y_i})\)為:

這里\(\lambda\)是一個額外的超參數以方便SphereFace訓練,\(\lambda\)在最開始設為1000,然后減小到5以保證每個類別的角度空間更緊湊。這個超參數讓SphereFace的訓練也變得十分講究技巧。
1.4 特征歸一化**
在人臉驗證中,特征歸一化被廣泛使用,如L2-norm的歐式距離和余弦距離[29]。[30]觀察到使用softmax訓練的L2-norm特征具有人臉質量的信息。對於高質量的正臉就有較高L2-norm,而對於模糊的人臉和極端姿態的人臉就有較低L2-norm。[33]將L2約束加入到特征描述中,以此限制特征位於一個固定半徑的超球面上。[44]指出在當來自低質量人臉圖的特征范數很小的時候梯度范數可能會變得相當大,這隱含了梯度爆炸的風險。
L2-norm在特征和權重上對於超球面的度量學習是很重要的一步。背后的直觀感覺就是這樣可以移除徑向變化,並將每個特征推到一個超球面流行上。特征規范化的優勢在參考文獻[25,26,43,45]中都有揭示。
受到[參考文獻33,43,44,45]的啟發,作者在這里也將\(||x_i||\)通過L2-norm,並且rescale \(||x_i||\)到s,這就是超球面的半徑,本文中,\(s=64\),基於特征和權重歸一化,可以得到\(W_j^Tx_i=cos\theta_j\)。
如果特征規范化用在SphereFace上,可以得到一個特征規范化的SphereFace,即SphereFace-Norm:

1.5 Additive Cosine Margin**
在文獻[43,44]中,角度邊際m從\(cos\theta\)中移除了,因此他們提出余弦邊際loss函數:

本文中,余弦邊際設為0.35.相比於SphereFace,額外的余弦邊際(CosineFace)有三個優勢:
- 不需要任何超參數就能容易實現;
- 更清晰,且能夠在沒有softmax的輔助下收斂;
- 明顯的性能提升。
1.6 Additive Angular Margin**
雖然余弦邊際是角度空間一對一的映射過來的,在這兩個邊際中仍然還是有不同的。事實上,角度邊際有着更清晰的幾何解釋,角度空間中的邊際對應超球面流行上角度(arc)距離。作者在\(cos\theta\)中增加了一個角度邊際,因為當\(\theta\in [0,\pi-m]\)時,\(cos(\theta+m)\)小於\(cos(\theta)\),該約束對分類也更嚴格。這里將提出的ArcFace損失函數定義為:

如果將提出的Additive Angular Margin \(cos(\theta+m)\)進行展開,得到\(cos(\theta+m)=cos\theta cos\, m-sin\theta sin\, m\)。相比於additive cosine margin \(cos(\theta)-m\),ArcFace是類似的,不過因為\(sin\, m\)使得邊際是動態的。

如圖2,角度邊際對應arc邊際,相比於SphereFace和ConsineFace,ArcFace有着最好的度量解釋。
1.7 二值情況下的對比
為了更好的理解softmax到ArcFace,基於表1和圖3的二分類下決策面


基於規范化后的權重和特征,這些方法的主要區別就是在哪放邊際。
1.8 目標logit分析
為了調查為什么人臉識別可以被SphereFace,CosineFace和ArcFace所提升,需要分析訓練過程中目標logits曲線和\(\theta\)的分布。這里使用LResNet34E-IR網絡和提煉的MS1M數據集。




在圖4a中,將softmax,SphereFace,CosineFace,ArcFace的目標logit曲線都展示了下。對於SphereFace,最好的配置是m=4,\(\lambda=5\),其相似於m=1.5,\(\lambda=0\)的曲線。然而,SphereFace的實現需要m是整數。當嘗試最小相乘邊際m=2,\(\lambda=0\)時,訓練沒法收斂。因此,從Softmax下稍微降低目標logit曲線可以增加訓練難度並改善性能,但是減少太多可能導致訓練發散。
CosineFace和ArcFace遵循相同的策略,如圖4a,CosineFace沿着y軸負方向移動目標logit曲線,而ArcFace沿着x軸負方向移動目標logit曲線。現在,可以很容易的理解從Softmax到CosineFace到ArcFace的性能提升。
ArcFace的邊際m=0.5時,\(\theta]in[0,180]\)度目標logit曲線不是單調下降的。事實上,當\(\theta>151.35\)時,目標logit曲線是上升的。然而如圖4c,最開始隨機初始化時,\(\theta\)在\(90\)度為中心部分是個高斯分布,其最大的角度小於105度。在訓練階段,幾乎從未達到ArcFace的增長間隔,所以不需要顯式處理這部分。
圖4c中,主要展示了CosineFace和ArcFace在訓練三個階段的\(\theta\)分布:開始,中間,結束。分布中心逐漸的從90移動到35-40。
圖4a中,發現30到90度時,ArcFace的目標logit曲線低於CosineFace。因此在這個區間內,ArcFace可以相比CosineFace有更多嚴格的邊際懲罰。
圖4b中,展示了針對Softmax,CosineFace,ArcFace在訓練集上目標logit收斂曲線。可以發現ArcFace的邊際懲罰在最開始要重於CosineFace,如紅線低於藍線。在訓練最后,ArcFace收斂要好於CosineFace如\(\theta\)的直方圖在左邊(圖4c),目標logit收斂曲線更高(圖4b)。從圖4c中,還能發現在訓練最后幾乎所有的\(\theta\)要小於60度。這個領域外的樣本都是最難的樣本,就和訓練集合中的噪音一樣。即使CosineFace在\(\theta<30\)上放入更多嚴格邊際懲罰(圖4a),即使在訓練最后也很難達到這個領域(圖4c)。因此,可以理解為什么SphereFace即使在一個相對小的邊際上也能獲得很好的性能。
總結來說,當\(\theta\in[60,90]\)時,增加太多邊際懲罰會導致訓練發散,即SphereFace(m=2,\(\lambda=0\))。當\(\theta\in [30,60]\)時,增加邊際可以潛在提升性能,因為這個區域對應的是最有效的半硬樣本。當\(\theta<30\)時,不能明顯提升效果,因為這個區域對應的是最簡單的樣本。當回頭看圖4a和介於\([30,60]\)之間的曲線,可以理解為什么從Softmax,SphereFace,CosineFace,ArcFace有性能提升(基於各自最好的超參數)。注意到這里30和60度是簡單的作為簡單和困難訓練樣本的划分閾值。
2 數據集
有些數據集直接用,有些數據集需要提煉,比如直接通過規則提煉,或者通過其他模型進行提煉。
以VGG2(直接使用)和MS=Celeb-1M(提煉過為MS1M)為訓練集。
以LFW,Celebrities in Frontal Profile (CFP) 和 Age Database (AgeDB)為驗證集
以MegaFace為測試集
3 網絡設置
首先基於VGG2作為訓練集在幾個不同的網絡上進行訓練並評估人臉驗證性能。采用softmax作為loss。batchsize為512,基於8張P40訓練,學習率開始是0.1,然后在100k,140k,160k迭代上分別乘以0.1倍。總共迭代200k次,動量值為0.9,權重衰減項系數為0.0005。

3.1 輸入設置
采用和MTCNN一樣的對齊策略,人臉檢測后會被裁減並縮放到112x112.每個RGB值先減去127.5,然后除以128。為了匹配大部分224x224的網絡輸入,作者這里用conv3x3和stride=1作為第一層卷積層,代替之前的conv7x7和stride=2。對於這2個配置,卷積網絡的輸出size分別是7x7(網絡名前面有個"L")和3x3。
3.2 輸出設置
在最后幾層,一些不同的選擇可以通過檢測embedding是如何影響模型結果的方式來評估。對於Option-A,所有特征embedding維度都為512,因為Option-A中embedding size由最后一個卷積層的通道大小決定:
- Option-A:使用全局池化層(GP)
- Option-B:在GP后使用一個全連接層(FC);
- Option-C:在GP后面使用FC-BN;
- Option-D:在GP后使用FC-BN-PReLU;
- Option-E:在最后卷積層后面使用BN-Dropout-FC-BN;
在預測階段,計算的得分是通過兩個向量的余弦距離,最近鄰和閾值對比是用在人臉識別和驗證任務上。
3.3 塊設置
如同最原始ResNet單元,我們同樣調研一個更好的殘差單元配置。
<center.>
如圖7,這里將改變后的殘差單元稱為"IR",其是一個BN-Conv-BN-PReLU-Conv-BN結構。相比於[12]中的殘差單元,這里第二次卷積層的stride=2。另外,PReLU用來替換ReLU。
3.4 基底骨干網絡
作者也調研了MobileNet,Inception-Resnet-V2,DenseNet,SENet,(Dual path network,DPN)。
3.5 不同配置實驗結果
輸入選擇
在表2中,對比了有L和沒有L的網絡結構,當在第一層網絡層使用conv3x3和stride=1時,網絡輸出是7x7;當第一層卷積層使用conv7x7和stride=2時,網絡輸出只有3x3.

從表2可以發現,選擇更大的feature map可以獲得更高的驗證准確度。
輸出選擇
在表3中,給定不同輸出配置下的對比。Option-E獲得最好的性能本文中dropout參數為0.4,dropout可以扮演一個正則化的角色來緩解過擬合從而獲得更好的泛化效果

塊選擇
在表4中,給定原始殘差塊和改變的殘差塊的對比。

可以發現,提出的BN-Conv(stride=1)-BN-PReLu-Conv(stride=2)-BN可以獲得更好效果。
骨干網絡選擇
從表8,給出了驗證准確度,測試速度和模型size。運行時間是在P40上測的。因為在LFW上性能基本飽和了,所以關注與CFP-FP和AgeDB-30。Inception-Resnet-V2網絡獲得最好的性能,一次需要(53.6ms),模型也最大(642MB)。通過對比,MobileNet可以在4.2ms,112MB大小下運行。而性能只有稍微下降。

如表8,在大網絡直接的性能差距還是挺小的,如ResNet-100, Inception-Resnet-V2, DenseNet, DPN 和 SE-Resnet-100。介於准確度,速度,模型size,最后選擇LResNet100E-IR作為MegaFace挑戰的模型預測。
權值衰減
基於SE-LResNet50E-IR,也調研了權重值是怎么影響人臉驗證性能。

當衰減值為0.0005時,驗證准確度最高。因此在所有實驗中,本文將其設為默認值。
4 loss設置
因為邊際參數m在ArcFace中扮演很重要的角色,首先通過實驗找到最佳邊際參數。通過選取[0.2,0.8]之間的值,使用LMobileNetE和ArcFace的loss基於提煉后的MS1M上訓練模型。

如表6,當m=0.2時性能開始提升,在m=0.5的時候性能飽和,然后開始下降。因此本文中m取值0.5。並基於LResNet100E-IR網絡和MS1M數據集,對比了不同loss函數,如softmax,SphereFace,CosineFace和ArcFace。

表7中,給出了基於LFW,CFP-FP,AgeDB-30數據集上的驗證准確值。LFW上准確度都接近飽和了,所以提升效果不明顯,不過可以發現:
- 相比softmax,其他如SphereFace,CosineFace和ArcFace都有明顯提升,特別是基於較大姿態和年齡變化;
- CosineFace和ArcFace明顯優於SphereFace,且容易實現,且他倆不需要添加額外的softmax來輔助收斂。而SphereFace需要softmax來幫助收斂;
- ArcFace稍好於CosineFace。然而,ArcFace更直觀,且幾何上解釋更清晰。
5 FaceScrub上MegaFace 挑戰1


6 基於triplet loss的提升
reference:
- [1] Fg-net aging database, www-prima.inrialpes.fr/fgnet/.2002. 6
- [2] http://megaface.cs.washington.edu/results/facescrub.html. 1, 2, 9
- [3] https://github.com/davidsandberg/facenet. 2
- [4] https://www.nist.gov/programs-projects/face-recognitionvendor- test-frvt-ongoing. 1
- [5] http://www.yitutech.com/intro/. 1
- [6] A. Bansal, A. Nanduri, C. D. Castillo, R. Ranjan, and R. Chellappa. Umdfaces: An annotated face dataset for training deep networks. arXiv:1611.01484v2, 2016. 1
- [7] Q. Cao, L. Shen, W. Xie, O. M. Parkhi, and A. Zisserman. Vggface2: A dataset for recognising faces across pose and age. arXiv:1710.08092, 2017. 1, 2, 3, 6
- [8] T. Chen, M. Li, Y. Li, M. Lin, N. Wang, M. Wang, T. Xiao, B. Xu, C. Zhang, and Z. Zhang. Mxnet: A flexible and efficient machine learning library for heterogeneous distributed systems. arXiv:1512.01274, 2015. 7
- [9] Y. Chen, J. Li, H. Xiao, X. Jin, S. Yan, and J. Feng. Dual path networks. In Advances in Neural Information Processing Systems, pages 4470–4478, 2017. 8
- [10] J. Deng, Y. Zhou, and S. Zafeiriou. Marginal loss for deep face recognition. In CVPRW, 2017. 2, 6
- [11] Y. Guo, L. Zhang, Y. Hu, X. He, and J. Gao. Ms-celeb-1m: A dataset and benchmark for large-scale face recognition. In European Conference on Computer Vision, pages 87–102. Springer, 2016. 1, 2, 6
- [12] D. Han, J. Kim, and J. Kim. Deep pyramidal residual networks. arXiv:1610.02915, 2016. 8
- [13] K. He, X. Zhang, S. Ren, and J. Sun. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In Proceedings of the IEEE international conference on computer vision, pages 1026–1034, 2015. 8
- [14] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 770–778, 2016. 2, 8
- [15] K. He, X. Zhang, S. Ren, and J. Sun. Identity mappings in deep residual networks. In European Conference on Computer Vision, pages 630–645. Springer, 2016. 2
- [16] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko,W.Wang, T. Weyand, M. Andreetto, and H. Adam. Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv:1704.04861, 2017. 2, 8
- [17] J. Hu, L. Shen, and G. Sun. Squeeze-and-excitation networks. arXiv:1709.01507, 2017. 8
- [18] G. Huang, Z. Liu, K. Q. Weinberger, and L. van der Maaten. Densely connected convolutional networks. CVPR, 2016. 8
- [19] G. B. Huang, M. Ramesh, T. Berg, and E. Learned-Miller. Labeled faces in the wild: A database for studying face recognition in unconstrained environments. Technical report, Technical Report 07-49, University of Massachusetts, Amherst, 2007. 5, 6
- [20] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In International Conference on Machine Learning, pages 448– 456, 2015. 8
- [21] I. Kemelmacher-Shlizerman, S. M. Seitz, D. Miller, and E. Brossard. The megaface benchmark: 1 million faces for recognition at scale. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4873– 4882, 2016. 1, 2, 5, 6
- [22] J. Liu, Y. Deng, T. Bai, Z.Wei, and C. Huang. Targeting ultimate accuracy: Face recognition via deep embedding. arXiv preprint arXiv:1506.07310, 2015. 10
- [23] W. Liu, Y. Wen, Z. Yu, M. Li, B. Raj, and L. Song. Sphereface: Deep hypersphere embedding for face recognition. CVPR, 2017. 1, 2, 3, 4, 7, 9
- [24] W. Liu, Y. Wen, Z. Yu, and M. Yang. Large-margin softmax loss for convolutional neural networks. In ICML, pages 507– 516, 2016. 2, 3
- [25] W. Liu, Y.-M. Zhang, X. Li, Z. Yu, B. Dai, T. Zhao, and L. Song. Deep hyperspherical learning. In Advances in Neural Information Processing Systems, pages 3953–3963, 2017. 3
- [26] Y. Liu, H. Li, and X. Wang. Rethinking feature discrimination and polymerization for large-scale recognition. arXiv:1710.00870, 2017. 3
- [27] S. Moschoglou, A. Papaioannou, C. Sagonas, J. Deng, I. Kotsia, and S. Zafeiriou. Agedb: The first manually collected in-the-wild age database. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshop, 2017. 5, 6
- [28] H.-W. Ng and S. Winkler. A data-driven approach to cleaning large face datasets. In Image Processing (ICIP), 2014 IEEE International Conference on, pages 343–347. IEEE, 2014. 6
- [29] H. V. Nguyen and L. Bai. Cosine similarity metric learning for face verification. In ACCV, pages 709–720, 2010. 3
- [30] C. J. Parde, C. Castillo, M. Q. Hill, Y. I. Colon, S. Sankaranarayanan, J.-C. Chen, and A. J. O’Toole. Deep convolutional neural network features and the original image. arXiv:1611.01751, 2016. 3
- [31] O. M. Parkhi, A. Vedaldi, and A. Zisserman. Deep face recognition. In BMVC, volume 1, page 6, 2015. 1, 2, 3
- [32] G. Pereyra, G. Tucker, J. Chorowski, Ł. Kaiser, and G. Hinton. Regularizing neural networks by penalizing confident output distributions. arXiv:1701.06548, 2017. 3
- [33] R. Ranjan, C. D. Castillo, and R. Chellappa. L2- constrained softmax loss for discriminative face verification. arXiv:1703.09507, 2017. 3
- [34] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. Imagenet large scale visual recognition challenge. International Journal of Computer Vision, 115(3):211–252, 2015. 7
- [35] F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A unified embedding for face recognition and clustering. In CVPR, 2015. 1, 2, 5, 10
- [36] S. Sengupta, J.-C. Chen, C. Castillo, V. M. Patel, R. Chellappa, and D. W. Jacobs. Frontal to profile face verification in the wild. In WACV, pages 1–9, 2016. 5, 6
- [37] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014. 2
- [38] N. Srivastava, G. E. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov. Dropout: a simple way to prevent neural networks from overfitting. Journal of machine learning research, 15(1):1929–1958, 2014. 8
- [39] Y. Sun, Y. Chen, X. Wang, and X. Tang. Deep learning face representation by joint identification-verification. In Advances in neural information processing systems, pages 1988–1996, 2014. 2
- [40] C. Szegedy, S. Ioffe, V. Vanhoucke, and A. A. Alemi. Inception-v4, inception-resnet and the impact of residual connections on learning. In AAAI, pages 4278–4284, 2017. 2, 8
- [41] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1–9, 2015. 2
- [42] Y. Taigman, M. Yang, M. Ranzato, and L. Wolf. Deepface: Closing the gap to human-level performance in face verification. In CVPR, 2014. 1, 2
- [43] TencentAILab. Facecnn v1. 9/21/2017. 1, 2, 3, 4, 9
- [44] F. Wang, W. Liu, H. Liu, and J. Cheng. Additive margin softmax for face verification. In arXiv:1801.05599, 2018. 1, 2, 3, 4, 9
- [45] F. Wang, X. Xiang, J. Cheng, and A. L. Yuille. Normface: l 2 hypersphere embedding for face verification. arXiv:1704.06369, 2017. 3
- [46] Y. Wen, K. Zhang, Z. Li, and Y. Qiao. A discriminative feature learning approach for deep face recognition. In European Conference on Computer Vision, pages 499–515. Springer, 2016. 2, 3, 7
- [47] X. Wu, R. He, Z. Sun, and T. Tan. A light cnn for deep face representation with noisy labels. arXiv preprint arXiv:1511.02683, 2015. 1
- [48] D. Yi, Z. Lei, S. Liao, and S. Z. Li. Learning face representation from scratch. arXiv preprint arXiv:1411.7923, 2014.
- [49] K. Zhang, Z. Zhang, Z. Li, and Y. Qiao. Joint face detection and alignment using multitask cascaded convolutional networks. IEEE Signal Processing Letters, 23(10):1499–1503, 2016. 7
- [50] X. Zhang, Z. Fang, Y. Wen, Z. Li, and Y. Qiao. Range loss for deep face recognition with long-tail. ICCV, 2017. 1, 2, 3
- [51] X. Zhang, X. Zhou, M. Lin, and J. Sun. Shufflenet: An extremely efficient convolutional neural network for mobile devices. arXiv:1707.01083, 2017. 2
