深度人臉識別:CVPR2020論文要點
Towards Universal Representation Learning for Deep Face Recognition
論文鏈接:https://arxiv.org/pdf/2002.11841.pdf
摘要
識別狂野的面孔是極其困難的,因為它們看起來有各種各樣的變化。傳統的方法要么使用目標域中的特定注釋變化數據進行訓練,要么通過引入未標記的目標變化數據來適應訓練數據。相反,我們提出了一個通用的表示學習框架,它可以在不利用目標領域知識的情況下處理給定訓練數據中看不到的較大變化。我們將訓練數據與一些語義上有意義的變化(如低分辨率、遮擋和頭部姿勢)進行了綜合。然而,直接輸入增廣數據進行訓練並不能很好地收斂,新引入的樣本大多是硬例子。我們建議將特征嵌入分割成多個子嵌入,並為每個子嵌入關聯不同的置信值,以平滑訓練過程。通過調整不同分區上的變化分類損失和變化對抗損失,進一步解除了子嵌入的相關性。實驗表明,該方法在lfwandmagface等一般人臉識別數據集上取得了很好的性能,而在微型人臉和IJB-S等極端基准上取得了顯著的效果。
Introductions
深度人臉識別是將輸入的圖像映射到一個具有較小的內部同一距離和較大的內部同一距離的特征空間,這是通過損失設計和具有豐富的類內變化的數據集來實現的[29,40,17,38,4]。然而,即使是非常大的公共數據集,如MS-Celeb-1M,也表現出強烈的偏見,如種族[33]或頭部姿勢[20,24]。這種變化的缺乏導致在具有挑戰性的測試數據集上性能顯著下降,例如,先前最新技術[31]報告的IJB-S或TinyFace[11,3]的精度比IJB-A[14]或LFW[10]低約30%。最近的研究試圖通過識別相關的變異因素,並通過領域適應方法增加數據集以合並它們來緩解這個問題[33]。有時,這樣的變化很難識別,因此領域適應方法被用來調整訓練和測試領域之間的特征【28】。或者,可以在不同的數據集上訓練單個模型,並對其進行集成,以在每個數據集上獲得良好的性能[19]。
所有這些方法要么只處理特定的變化,要么要求訪問測試數據分布,要么增加額外的運行時復雜性來處理更廣泛的變化。相比之下,我們建議學習一個單一的“通用”深度功能演示,它可以處理變化的嬰兒識別,而不需要訪問測試數據分布,並保持運行時效率,同時在不同情況下獲得強大的性能,特別是在低質量的圖像上(見圖1)。
本文在第三節中介紹了一些新的貢獻來學習這種普遍的表示。首先,我們注意到具有非正面姿勢、低分辨率和嚴重遮擋的輸入是對“野外”應用提出挑戰的關鍵可命名因素,對於這些應用,訓練數據可能會得到綜合增強。但是直接在訓練中加入硬擴充的例子會導致一個更難的優化問題。我們通過提出一個識別損失來緩解這個問題,這個損失可以解釋每個樣本對學習概率特征嵌入的信心。
其次,我們通過將嵌入分解為子嵌入,每個子嵌入在訓練過程中都有獨立的置信值,從而尋求最大化嵌入的表示能力。
第三,鼓勵所有子嵌入通過子嵌入的不同分區上的兩個相反的正則化進一步去相關,即變化分類損失和變化對抗損失。第四,我們通過挖掘訓練數據中的額外變化來進一步擴展去相關正則化,對於這些變化,合成增強不是微不足道的。
最后,我們通過一個概率集合來解釋子嵌入對不同因素的不同判別能力,這個概率集合解釋了它們的不確定性。在第5節中,我們對公共數據集上提出的方法進行了廣泛的評估。
與我們的基線模型相比,該方法在一般人臉識別基准(如LFW和YTF)上保持了較高的精度,同時顯著提高了在IJB-C、IJB-S等具有挑戰性的數據集上的性能,在這些數據集上實現了最新的性能。詳細的燒蝕研究顯示了上述每一種貢獻對實現這些強大性能的影響。
總之,本文的主要貢獻有:
•一個面部表情學習框架,通過將通用特征與不同的變化相關聯來學習通用特征,從而提高對不同測試數據集的通用性。
•在培訓期間利用樣本可信度從硬樣本中學習特征的可信度識別損失。
•特征去相關正則化,在不同的子嵌入分區上應用變化分類損失和變化對抗損失,從而提高性能。
•有效結合合成數據的訓練策略,以訓練適用於原始訓練分布之外的圖像的人臉表示。
•幾個具有挑戰性的基准的最新成果,如IJB-A、IJB-C、TinyFace和IJB-S。
實驗表明,該方法在LFW和Mega Face等通用人臉識別數據集上取得了最好的性能,而在Tiny Face和IJB-S等極端基准上則表現得更好。
背景知識
現在已經有很多方法去進行人臉識別。然后,所有這些方法要么只處理特定的變化,要么需要訪問測試數據分布,要么增加額外的運行時復雜性來處理更廣泛的變化。相比之下,作者建議學習一個單一的“通用”深層特征表示,它可以處理人臉識別中的變化,而不需要訪問測試數據分布,並保持運行時效率,同時在各種情況下實現強大的性能,特別是在低質量的圖像上。
傳統的識別模型需要目標域數據從高質量的訓練數據中進行無約束/低質量的人臉識別。為了實現普遍表示的目的,進一步需要模型集成,這大大增加了模型的復雜性。相比之下,作者提出的方法只對原始訓練數據有效,沒有任何目標域數據信息,可以處理無約束的測試場景。
新方法框架
上圖 隨着不同的變化而增加的樣品
Confidence-aware Identification Loss
為了簡單起見,定義一個置信值si,在L2-標准化單位球上約束fi和wj:
上面公式中的效果如下圖所示。
當在不同質量的樣本之間進行訓練時,如果假設所有樣本的置信度相同,那么所學習的原型將位於所有樣本的中心。這並不理想,因為低質量的樣本傳達的身份信息更加模糊。相比之下,如果我們建立sample-specific confidence(si),高質量樣本顯示更高的信心,它推動原型wj更接近高質量樣本,以最大化后驗。同時,在嵌入fi的更新過程中,更有力的推動了低質量fi更接近原型。
在指數logit上增加loss margin已被證明是有效的縮小類內分布。也把它納入框架的損失中:
Confidence-aware Sub-Embeddings
雖然通過一個特定的門控si學習的嵌入fi可以處理樣本級別的變化,但是作者認為fi本身的條目之間的相關性仍然很高。為了最大限度地提高表示能力並實現緊湊的特征尺寸,需要對嵌入項進行去相關處理。
這鼓勵作者進一步將整個嵌入fi分解為分區的子嵌入,每個子嵌入都進一步分配一個標量置信值。如上圖所示,將整個feature embedded fi分割成K個等長次嵌入,如下公式所示。據此,將原型向量wj和置信標量si划分為大小相同的K組。
則最后的識別損失如下公式:
最后增加了一個額外的l2正則化來限制置信度的增長:
Sub-Embeddings Decorrelation
單獨設置多個子嵌入並不能保證不同組中的特征是學習互補信息的。根據下圖的經驗,作者發現子嵌入仍然是高度相關的,即fi分為16組,所有子嵌入的平均相關系數為0.57。
如果我們用不同的正則化方法對次嵌入進行懲罰,可以降低它們之間的相關性。通過將不同的子嵌入與不同的變量聯系起來,對所有子嵌入的一個子集進行變量分類損失,同時對其他變量類型進行變量對抗性損失。給定多個變量,這兩個正則化項被強制放在不同的子集上,從而得到更好的子嵌入解相關。
挖掘更多的變量
由於可擴展變量的數量有限(在本文為3個),導致了去相關效應的有限,因為Vt的數量太小。為了進一步增強去相關,並引入更多的變量以獲得更好的泛化能力,我們的目標是探索更多的語義變量。請注意,並不是所有的變量都容易進行數據擴充,例如微笑或不微笑是很難擴充的。對於這種變量,我們嘗試從原始訓練數據中挖掘出變量標簽。特別是,利用一個現成的屬性數據集CelebA訓練屬性分類模型身份對抗的損失:
Uncertainty-Guided概率聚合
考慮到推理的度量,簡單地取學習到的子嵌入的平均值是次優的。這是因為不同的次嵌入對不同的變量有不同的識別能力。它們的重要性應該根據給定的圖像對而有所不同。考慮應用與每個嵌入相關的不確定性,為成對的相似度評分:
實驗及可視化
三種類型的數據集,LFW, IJB-A和IJB-S
Testing results on synthetic data of different variations from IJB-Abenchmark (TAR@FAR=0.01%)
上圖是通過t-SNE可視化特征分布。
將16個subembeddings的不確定度評分重新划分為4×4個網格。高質量和低質量的次預埋件分別以深色、淺色顯示。對於不同的變化,不確定度圖顯示不同的模式。如下圖:
上圖是訓練樣本子嵌入置信度的可視化。