face recognition[翻譯][深度人臉識別:綜述]



這里翻譯下《Deep face recognition: a survey v4》.

1 引言

由於它的非侵入性和自然特征,人臉識別已經成為身份識別中重要的生物認證技術,也已經應用到許多領域,如軍事,進入,公共安全和日常生活。FR自然在CVPR會議中也占據了十分長的時間。早在1990年代,隨着特征臉的提出[157],FR就成為了一個比較熱門的研究領域。過去基於特征進行FR的里程碑方法在圖1中有所展示



如圖1所示,其中介紹了4個主流技術的發展過程:

  • holistic 方法:通過某種分布假設去直接獲取低維度的表征,如線性子空間[13,14,111],流行[43,67,191],稀疏表示[40,42,176,212]。該思想在1990年代占據了主流,直到2000年左右。然而,一個眾所周知的問題就是這些理論可解釋性的整體方法往往無法處理無約束下的人臉變化,因為它們都是來自預先假設的分布。
  • 在2000年代,該問題轉化成了基於局部特征的FR,Gabor[98],LBP[5]還有它們的多級別和高維度的擴展版本[26,41,213]。基於局部過濾的方式,在一些不變性要求上獲得了較為魯棒的性能。可是,手工設計的特征缺少特異性和緊湊性。
  • 在2010年代早期,人們又提出了基於學習的局部描述子方法[21,22,89],其中局部濾波器都是通過學習得到的,從而有了更好的特異性,而且編碼的編碼本也讓特征具有更好的緊湊性。然而這些淺層表征仍然有着不可避免的限制,它們對於復雜的非線性人臉外觀變化的魯棒性並不好。
  • 淺層方法試圖通過一層或者2層表征學習來完成FR問題,而深度學習方法是用一個非線性處理單元的多層級聯去進行特征提取和變換。它們學到的多層表征可以對應不同層級的抽取。這些層級構成了概念的層次結構,顯示了在復雜數據集上的超越特征不變性,如圖2所示。


在2014年,DeepFace[153]和DeepID[145]在LFW[74]數據集上獲得了最好的效果,首次在無約束場景下超越人類。從這以后,研究者們就開始將研究目光轉向了深度學習的方法。FR不同於通用的目標分類任務[88],因為人臉天然的特殊性:

  • 類間差別不大,因為大家臉都長得差不多;
  • 類內差別很大,同一個人在不同的姿態,光照,表情,年齡,和遮擋下有着十分巨大的變化。

這些挑戰激發了許多新穎的結構和損失函數,從而提升了深度模型的判別性和泛化性。同時,越來越大的人臉數據集和更多人臉處理方法被提出。
正是因為大量的訓練數據和GPU的普及,在近五年中,深度FR技術在學術benchmark數據集上不斷的刷新之前的記錄,而且隨后在真實世界中也有不少的應用落地。在近些年,也有不少基於FR[3,18,78,136,222]和它的子領域綜述,如光照不變性FR[234],3D FR[136],姿態不變FR[216]等等。然而這些綜述都只覆蓋了淺層FR的方法,在本文中,作者關注最新的基於深度特征學習的FR進展,還有對應的數據集的發展,人類處理方式和人臉匹配的發展等等。人臉檢測和人臉對齊超出了本文的討論范圍,可以看Ranjan的工作[123],其對完整的深度FR流程有簡潔的介紹。具體的,本文的貢獻如下:

  • 是一個關於深度FR上網絡結構和損失函數的系統性綜述,各種不同的損失函數被歸類為:基於歐式距離的基於角/余弦邊際的損失基於softmax損失和它的變種。主流的網絡結構如DeepFace[153],DeepID系列[145,146,149,177],VGGFace[116],FaceNet[137]和VGGFace2[20],還有其他特別為FR設計的結構;
  • 將人臉處理方法進行了歸類,划分成2類:one-to-many的增強many-to-one的歸一化,並討論了如何用GAN[53]去促進FR。
  • 分析了幾大重要的數據集,主流的benchmark,如LFW[74]IJB-A/B/C[87,174]Megaface[83]MS-Celeb-1M[59]。在以下四個角度去進行介紹:訓練方式評估任務評估指標識別場景
  • 總結了許多對深度FR來說仍然十分具有挑戰性的特定FR場景,如反欺騙,跨姿態FR,跨年齡FR。這些場景解釋了未來深度FR需要努力的方向。

本文組織架構如下:

  • 第二部分,介紹了一些背景概念和術語,然后簡短的介紹了FR每個組件;
  • 第三部分,介紹了不同的網絡結構和損失函數;
  • 第四部分,總結了人臉處理的一些算法;
  • 第五部分,介紹了一些數據集和評估方法
  • 第六部分, 介紹了在不同場景下的一些深度FR方法。
  • 第七部分,總結和展望。

2 概述

2.1 背景概念和術語

如[123]所述,人臉識別包含三個部分,如圖3

  • 人臉檢測:用來在圖像和視頻中定位人臉;
  • 人臉關鍵點檢測:用來對齊人臉到規范化的坐標上;
  • FR模塊:基於對齊的人臉做人臉驗證或者識別

本文主要關注上述的FR模塊。而FR模塊又可以划分成人臉驗證和人臉識別。不論是哪種,都需要提供訓練集(gallery)和測試集(probe)。人臉驗證是基於測試集和訓練集計算當前兩張人臉是否屬於同一個人(1:1);人臉識別是計算當前測試人臉與人臉庫中哪一張最相近(1:N)。當測試的人臉出現在訓練集中,該問題叫做閉集識別(closed-set identification),當測試的人臉不在訓練集中,該問題叫開集識別(open-set identification)

2.2 人臉識別的組成部分

在人臉圖片輸入到FR模塊之前,還需要進行人臉反欺騙(即活體檢測,用來識別當前的人臉是活的還是一張相片),從而避免一部分的攻擊(這在第六部分有所介紹)。然后就可以進行人臉識別了。如圖3(c),一個FR模塊包含人臉處理深度特征提取人臉匹配。其可以描述成:

\[M[F(P_i(I_i)), F(P_j(I_j))] \]

這里\(I_i\)\(I_j\)是兩張人臉圖像;\(P\)表示處理個人內部變化,如姿態,光照,表情和遮擋;\(F\)表示特征提取,用於編碼身份信息;\(M\)表示匹配算法,用於計算它們之間的相似度。

人臉處理
雖然深度學習方法展現了其強大的表征能力,Ghazi[52]還是發現對於不同的條件,如姿態,光照,表情,遮擋等問題仍然影響着深度FR的性能,所以人臉處理依然是必須的,特別是姿態。因為姿態的變化一直被認為是自動FR應用中一個主要的挑戰。本文主要總結了用深度學習去處理姿態的方法,其他的變化也可以用相似的方法去處理。
人臉處理方法可以划分成2個類別:one-to-many的增強many-to-one的歸一化,如表1所示。

  • one-to-many增強:從單張圖片中生成許多塊或者圖片來進行姿態變化的多樣性,保證深度網絡能學到姿態不變性表征;
  • many-to-one歸一化:從單張或多張非正臉圖片中恢復人臉圖片到規范的角度;然后FR可以如在約束條件下進行識別或驗證。

深度特征提取
主要涉及網絡結構。網絡可以划分成骨干網絡和多重網絡,如表2

因為Imagenet的成功[131],大量經典網絡層出不窮,如alexnet[88],vggnet[142],googlenet[151],resnet[64],senet[72],被廣泛用在FR的baseline模型中;當然在主流之外,仍然有很多特意為FR設計的網絡可以提升效率。更多地,當使用這些骨干網絡作為基本網絡構建塊的時候,FR模塊通常會基於多個輸入或者任務訓練多個不同的網絡。Hu[70]認為多重網絡可以累積結果從而提升准確度。
損失函數:softmax損失因具有不錯的可分性而一直被用在目標識別中。然而對於FR,當類內差異大於類間差異時,softmax就不足以很好的區分了。所以人們也在如何構建新的損失函數使得學到的特征不但具有可分性還具有判別性。如表3

  • 基於歐式距離的loss:基於歐式距離去壓縮類內方差,並擴大類間方差;
  • 基於角/余弦邊際的loss:以角的相似性去學習判別性的人臉特征,使得學到的特征有潛在更大的角/余弦分離;
  • softmax和它的變種:直接使用softmax損失或者修改softmax以提升性能。如基於特征或者權重的L2正則,還有噪音注入。

人臉匹配
在深度網絡經過大量的數據和合適的損失函數訓練之后,可以將每個測試圖片經過該網絡,從而獲取該圖片的深度特征表征。一旦提取了該深度特征,就可以直接用許多去計算兩個特征之間的相似性,如余弦距離,L2距離;然后通過最近鄰或者閾值比較的方式去完成人臉識別和驗證的任務。另外還能通過對深度特征進行后處理阿榮你還提升人臉匹配的效率和速度,例如度量學習,基於稀疏表示的分類器(sparse-representation-based classifier,SRC)。在圖4中,總結了FR各種模塊和他們通常使用的方法,以方便讀者對FR有個宏觀視角。

3 網絡結構和訓練損失函數

因為地球上有幾十億的人臉,所以在真實世界中,FR其實算得上是一個細粒度的目標分類任務。對於大多數應用,是無法在訓練階段包含需要判別人臉的(即測試的人臉通常不會在訓練集中),這就使得FR成為了一個”zero-shot“學習任務。還好,因為所有的人臉的形狀和紋理都差不多,所以從一個小比例的人臉數據集上學到的表征能很好的泛化到剩下的地球人上。最簡單的方法自然是盡可能的擴大訓練集中的ID。例如網絡巨頭Facebook和Google宣稱他們的可訓練的人臉ID庫有\(10^6-10^7\)個ID[137,153]。不過可惜的是,這些都是私有不公開的,還有這些巨頭的計算力也十分巨大。這些都是學術界無法得到的。當前學術界可用的公開訓練集只包含\(10^3-10^5\)個ID。然而學術界在不斷的嘗試設計高效的損失函數去使得在較小的訓練數據及上深度特征更具有判別性。
在本部分,我們總結了學術界關於不同損失函數的發展。

3.1 判別性損失函數的演變

從目標分類網絡發展至今,如alexnet,最開始的FR網絡如Deepface[153]和DeepID[149]都是采用基於softmax loss的交叉時進行特征學習的。然后人們發現softmax不足以去學習有大邊際的特征,所以更多的研究者開始利用判別性損失函數去增強泛化能力。這也變成了深度FR研究中最火熱的研究點,如圖5.



在2017年之前,基於歐式距離的損失函數占據主流;在2017年,角/余弦邊際的損失函數,特征與權重歸一化這兩個開始流行。雖然許多損失函數的基本思想差不多,不過最新的損失函數都是設計成采用更容易的參數或者采樣方法去方便訓練。

基於歐式距離的loss
歐式距離loss是一種度量學習[171,185],即通過將圖片嵌入到歐式空間中,完成壓縮類內方差擴大類間方差的目的。contrastive loss和triplet loss都是較為常用的損失函數。contrastive loss[145,146,150,177,198]需要人臉圖像對(face image pairs),然后將其中的正對(positive pairs)拉近,將負對(negative pairs)推遠。

這里\(y_{ij}=1\)意味着\(x_i\)\(x_j\)是匹配的樣本,當\(y_{ij}=-1\)意味着他們是不匹配的樣本。\(f( \cdot )\)是特征嵌入向量,\(\epsilon^+\)\(\epsilon^-\)控制着匹配對和不匹配對的邊際。DeepID2[177]通過將人臉識別(softmax)和人臉驗證(contrastive loss)的監督信號結合起來去學習判別性表征,並用聯合貝葉斯(JB)去獲取一個魯棒性的嵌入向量空間。DeepID2+[145]增大了隱藏表征的維度並在前面的網絡層增加了監督信號,而DeepID3[146]更是引入了VGGNet和GoogleNet。然而contrastive loss的主要問題是邊際參數十分難選擇。
不同於contrastive loss是計算匹配對和不匹配對的絕對距離,triplet loss考慮他們之間的相對距離。隨着google提出FaceNet[137],triplet loss[46,99,116,132,133,137]被引入到FR中。不過它需要人臉三元組,然后最小化錨點與同一個ID的其他正樣本之間的距離,最大化錨點與其他ID的負樣本之間的距離。FaceNet使用硬triplet人臉樣本去完成公式如

\[||f(x_i^a)-f(x_i^p)||_2^2+\alpha < -||f(x_i^a)-f(x_i^n)||_2^2 \]

這里\(x_i^a\),\(x_i^p\),\(x_i^n\)分別是錨點,正樣本和負樣本。\(\alpha\)是邊際;\(f(\cdot )\)表示一個非線性變換通過將圖片嵌入到特征空間中。受FaceNet的啟發,TPE[132]和TSE[133]是去學習一個線性映射\(W\)到construct triplet loss,其中TPE滿足等式3,TSE部分滿足等式4

其他方法有結合triplet loss和softmax loss[36,46,99,228]。他們首先用softmax訓練網絡,然后用triplet loss做微調。然而,contrastive loss和triplet loss有時候會遇到訓練的不穩定,這主要與選擇的訓練樣本有關。一些論文就開始尋找簡單的代替方法。center loss[173]和它的變種[39,183,215]對於壓縮類內方差是個好選擇。在[173]中,center loss學到每個類的中心,然后懲罰深度特征和他們的類中心的距離。這個loss可以定義成如下形式

這里\(x_i\)表示屬於\(y_i\)類的第\(i\)個深度特征,\(c_{y_i}\)表示\(y_i\)類的深度特征的中心。為了處理長尾問題,range loss[215]用於最小化一個類中k個最大range的harmonic均值,然后最大化一個batch中最短類間距離。Wu[183]提出了一個center-invariant loss,其用於懲罰每個類中心之間的距離。Deng[39]選擇最遠的類內樣本和最近的類間樣本用於計算邊際損失(margin loss)。然而center loss和他的變種仍然受制於分類層在GPU內存中的占用,而且最好每個ID有平衡的足夠的訓練數據。

基於角/余弦邊際的loss
在2017年,人們對深度FR中的損失函數有了更深層次的理解,認為樣本應該更嚴格的分離樣本以避免對困難樣本的誤分類。角/余弦邊際loss[38,100,101,102,162]被提出用來讓學到的特征在更大角/余弦距離上能夠潛在可分。Liu[101]將原始softmax loss重新定義到一個大邊際(large-margin softmax, L-softmax) loss,這需要\(||W_1|| ||x|| cos(m\theta_1) > ||W_2||||x||cos(\theta_2)\),這里\(m\)是引入角邊際的正整數,\(W\)是最后一層全連接層的權重,\(x\)表示深度特征,\(\theta\)是他們之間的角度。因為余弦函數的非單調性,在L-softmax中引入分段函數以保證單調性。該loss函數定義為:

其中

然而L-softmax比較難收斂,softmax loss總是被結合進去,以方便和確保收斂,然后通過一個動態超參數\(\lambda\)去控制權重。通過增加額外的softmax loss,該loss的新形式為:

基於L-Softmax,A-Softmax loss隨之被提出[100],通過L2范數(\(||W||=1\))去歸一化權重\(W\),這樣歸一化后的向量就落在了超球面上,然后可以通過在超球面流行上學習一個角邊際(圖6)去獲取判別性的人臉特征。

Liu[102]引入一個深度超球面卷積網絡(SphereNet),采用超球面卷積作為其基本卷積算子,並通過角邊際的loss進行監督。為了克服L-Softmax和A-Softmax的優化困難,他們以乘法方式結合角邊際,ArcFace[38]和ConsineFace[162],AMS loss[164]各自引入一個額外的角/余弦邊際\(cos(\theta + m)\)\(cos\theta -m\)。他們都很容易實現,且沒有超參數\(\lambda\),而且更清晰,並且不需要通過softmax的監督去完成收斂。表4中展示了基於二分類的決策面。

相對基於歐式距離的loss而言,角/余弦邊際loss顯式的在一個超球面流行上增加判別性約束,本質上匹配了人臉落在該流行上的先驗。

softmax及其變種
在2017年,除了將softmax loss重定義到一個角/余弦邊際loss中,仍然有許多基於softmax本身的工作。如對softmax loss中的特征或者權重做歸一化。這可以寫成如下形式:

這里\(\alpha\)是一個尺度參數。縮放\(x\)到一個固定的半徑\(\alpha\)是很重要的,如[163]證明了歸一化特征和權重到1 可以讓softmax loss在訓練集上陷入到一個很大的值。特征和權重歸一化是高效的tricks,而且可以用在其他loss上。
在[38,100,102,162]中,loss函數只歸一化權重並用角/余弦邊際進行訓練可以讓學到的特征更具判別性。相較之下,許多工作[60, 122] 自適應特征歸一化只是解決了softmax的樣本分布的偏置。基於[115]的觀測結果,用softmax loss加上L2-范數學到的特征具有人臉質量的信息性,L2-softmax[122]強制讓所有的特征通過特征歸一化使得他們具有相同的L2范數,這樣高質量的正臉和有着極端姿態的模糊人臉就有相似的注意力。Hasnet[60]不是通過縮放參數\(\alpha\),而是用\(\hat x=\frac{x-\mu}{\sqrt{\sigma^2}}\)來歸一化特征,這里\(\mu\)\(\sigma^2\)是均值和方差。歸一化特征和權重[61,104,163]已經變成了一個通用的策略了。在[163]中,Wang從分析角度和幾何角度揭示了歸一化操作的必須性。在特征和權重歸一化后,CoCo loss[104]優化額數據特征內部的余弦距離,而[61]使用von Mises-Fisher(vMF)混合模型區作為理論基礎,提出了一個新穎的vMF混合loss和對應的vMF 深度特征。
在歸一化之外,同時也有其他策略來修改softmax;如Chen[23]通過在softmax中注入退火噪音,提出一個噪音的softmax去模擬早期飽和。

3.2 網絡結構的演變

骨干網絡
骨干網絡,也就是主流結構,在深度FR中使用的網絡結構基本都和深度目標分類一樣,都是從alexnet發展到senet。我們這里按照最具影響力的結構發展來介紹,如圖7.

在2012年,Alexnet[88]在Imagenet上獲得了最好的結果,超過第二名一大截。alexnet包含了5層卷積層和三層全連接層,他同時整合了多種技術,如ReLU,dropout,數據增強等等。然后在2014年,VGGNet[142]被提出,其中包含非常小的卷積過濾器(3x3),和在每次2x2池化之后,將通道數進行加倍。它成功的讓CNN的深度提升到了16-19層,其網絡結果表明了通過深度結構學習非線性映射的靈活性。在2015年,22層的GooleNet[151]引入一個"inception模塊"。在2016年。。。。 主流結構如圖8.

受到目標分類中的進展影響,深度FR也追尋着這些主流結構的使用。在2014年,DeepFace[153]是第一個采用了7層局部連接層的一個9層CNN。通過對數據進行三維對齊,它在LFW上獲得了97.35%的准確度。在2015年,FaceNet[137]使用一個私有的人臉數據集去訓練googlenet,通過一個新穎的在線triplet挖掘方式生成許多人臉塊,然后在對齊的匹配/不匹配人臉塊三元組上使用triplet loss函數,獲得了99.63%的准確度。同年VGGface[116]也公開了一個人臉數據集,在該數據集上訓練的VGGNet然后通過類似FaceNet的triplet loss進行微調,在LFW上獲得了98.95%的結果。在2017年,SphereFace[100]使用一個64層的Resnet結構,並提出了angular softmax(A-softmax) loss,通過使用角邊際學到了判別性人臉表征,將結果提升到了99.42%。在2017年底,出現了一個新的人臉數據集,VGGface2[20],其包含了在姿態,年齡,光照,種族,職業都有很大的變化。Cao首次用SEnet在Ms-celeb-1M[59]數據集上進行訓練,然后用VGGFace2進行微調,在IJB-A[87],IJB-B[174]上獲得了最好的效果。

特殊結構:在FR中有許多特定的網絡結構,Wu[179,180]提出了一個maxfeature-map(MFM)激活函數,通過在CNN的全連接層中引入maxout。該MFM獲得了一個緊湊的表征並減少了計算代價。有感於[97],Chowdhury[34]在FR中應用雙線性CNN(B-CNN),通過結合兩個CNN的每個位置上的輸出然后進行平均池化,獲得了雙線性特征表征的能力。Sun[150]提出基於權重選擇標准,從先前學習的更密集模型迭代地稀疏深度網絡。條件卷積神經網絡(c-CNN)[186]依據樣本的模態動態的激活內核集。雖然設計用來在手機端運行的如SqueezeNet[76],MobileNet[69],ShuffleNet[33]和Xception[217]等網絡目前還未被廣泛的用在FR上。

聯合對齊-表征的網絡:最近,一個端到端的系統[29,63,178,227]可以用來聯合訓練幾個模塊(人臉檢測,對齊等等)。相較於那些每個模塊根據不同的目標單獨優化,這個端到端系統根據識別目標優化每個模塊,從而為識別模型提供更充分和穩健的輸入。例如,受spatial transformer[77]的感想,Hayat[63]提出一個基於CNN的數據驅動方法,同時進行注冊器的學習和人臉表征的學習(圖9)

Wu[178]設計了一個新穎的遞歸空間變換(recursive spatial transformer, ReST)模塊,讓CNN能夠同時進行人臉對齊和識別。

多重網絡
多輸入網絡:對應"one-to-many增強"是通過生成圖像的多個塊或者姿態的形式,該結構也可以改成同時接受多個輸入的多重網絡。在[46,99,145,148,149,177,228]中,多重網絡都是在生成不同人臉塊之后進行構件的,然后一個網絡去處理其中的一種數據類型。其他文獻[82,108,167]使用多重網絡去處理不同姿態的圖片。例如,Masi[108]先調整姿態到正臉(\(0^o\)),半臉(half-profile)(\(40^o\)),全貌(full-profile view)(\(75^o\)),然后通過多角度網絡去處理姿態變化。在[82]中的多角度深度網絡(multi-view deep network, MvDN)包含特定角度的子網絡和通用子網絡,前者用來移除特定角度的變化,后者獲取通常的表征。Wang[167]使用對SAE來應對交叉角度FR(cross-view)
多任務學習網絡:其他類型的多重網絡是多任務學習,進行ID分類是其主要任務,其他副任務如姿態,光照,表情等等。在這些網絡中,低層網絡會基於所有任務進行共享,更高層就會分支到多個網絡,以此生成具體任務的輸出。在[124]中,任務依賴的子網絡分叉出去學習人臉檢測,人臉對齊,姿態估計,性別識別,笑容檢測,年齡評估,人臉識別。Yin[203]提出了一個自動針對每個副任務賦予動態loss權重的方法。Peng[118]使用一個特征重構度量學習去分叉CNN網絡到子網絡中去,用於做人臉識別和姿態估計,如圖10

3.3 用深度特征進行人臉匹配

在測試中,余弦距離和L2距離通常是用來對兩個深度特征\(x_1\),\(x_2\)進行測量他們的相似度的。然后通過閾值對比或者最近鄰分類器去做人臉驗證和識別的任務。除了這兩個常用的方法,還有一些其他方法。

人臉驗證
度量學習,意在找到一個新的度量,能夠讓兩個類更具有可分性,同樣可以用在基於人臉匹配的深度特征上。如聯合貝葉斯(JB)[25]模型是一個眾所周知的度量學習方法[145,146,149,177,198]。Hu[70]證明了其能很大的提升性能。在JB模型中,人臉特征\(x\)\(x=\mu+ \epsilon\)進行建模,這里\(\mu\)\(\epsilon\)分別是ID和類內方差。相似性得分\(r(x_1,x_2)\)可以表示成:

這里\(P(x_1,x_2|H_I)\)是兩個人臉圖片屬於同一個人的概率,\(P(x_1,x_2|H_E)\)是兩個人臉圖片屬於不同ID的概率。

人臉識別
在計算了余弦距離之后,Cheng[30]在多個CNN模型的魯棒性多視圖組合的相似性得分上提出了一個啟發式投票策略在MS-celeb-1M 2017的challege2上獲得了第一名。在[197],Yang在人臉圖像的局部區域上提取局部自適應卷積特征,然后基於擴展的SRC在一個ID一個樣本上完成FR。Guo[56]將深度特征和SVM分類器結合起來去識別所有的類。基於深度特征,Wang[160]首次使用乘積量化(product quantization,PQ)[79]去直接檢索top-k個最相似的人臉,然后通過結合深度特征與COTS匹配器[54]進行人臉的重排序。另外,當訓練集和測試集的ID有重復時,可以用softmax做人臉匹配。例如在MS-celeb-1M challenge2中,DIng[226]訓練了一個21000類的softmax分類器,直接在通過條件GAN進行特征增強之后識別one-shot類和正常類的人臉圖片。Guo[58]通過訓練結合了underrepresented-classes promotion loss項的softmax來增強該性能。

當訓練集的分布和測試集的分布是一樣的,那么上述人臉匹配方法效果都很好。可是如果不一樣,那么效果就會急轉直下。遷移學習[113,166]也就被引入到深度FR中,其利用在一個相對的原領域(訓練集)進行FR的訓練,然后在目標領域(測試集)進行執行FR。當存在領域遷移時,有時候這有助於人臉匹配。[36,187]采用了模板自適應,這是一種模板的遷移學習,通過結合CNN特征與特定模板的線性SVM。但是大多數,只在人臉匹配上進行遷移學習還是不夠的。遷移學習應該潛入到深度模型中去學習更具遷移性的表征。Kan[81]提出一個bi-shifting自動編碼網絡(bi-shifting autoencoder network,BAE)在跨視角,種族和圖像成像傳感器之間進行領域自適應;而Luo[233]針對同一個目的采用了多核最大均值差異(multi-kernels maximum mean discrepancy,MMD)。Sohn[143]使用對抗學習[158]去將靜態圖片FR進行知識遷移到視頻FR上。先使用目標訓練數據進行訓練,在預訓練好的模型上將CNN參數進行微調到新的數據集。在很多方法中都是這么用的[4,28,161]。

4 訓練和識別中的人臉處理

當我們關注不同的人臉處理方法如圖11,就會發現每年都會有很多不同的主流方法

在2014年到2015年,大多數的方法還是SAE模型和CNN模型;在2016年3D模型占據了主流;在Goodfellow發明GAN[53]開始,GAN就被深度學習和機器視覺社區深入研究。它可以用在多個不同的領域,同樣也有人臉處理。在2017年,GAN顯示了其在FR的能力,他不但可以完成”one-to-many增強“,也能完成”many-to-one歸一化“,同時它打破了人臉合成需要基於有監督的限制。雖然GAN還沒廣泛用在人臉處理和識別中,它還是很有潛力的。例如,Dual-Agent GANs(DA-GAN)[221]在NIST IJB-A 2017FR比賽上贏得了驗證和識別的第一名。

4.1 one-to-many的增強

收集一個大的數據集的代價是很大的,而”one-to-many增強“可以模擬數據收集的過程,然后用來增強訓練數據集和測試數據集,我們將他們歸類為四類:

  • 數據增強:
  • 3D模型;
  • CNN模型;
  • GAN模型。

數據增強:常見的數據增強方法包括光度變換[88,142]]和幾何變換,如過采樣(通過不同尺度裁剪獲得的多個塊)[88],鏡像[193],以及旋轉[184]。近年來,數據增強已經在深度FR算法[46,99,145,146,150,160,177,228]中普遍應用了。例如Sun[145]通過crop了400個人臉塊,其中涉及了位置,尺度,顏色通道和鏡像等等。在[99]中,在人臉區域獲取7個不同的關鍵點,以其作為中心得到7個重疊圖像塊,然后用7個相同結構的CNN去分別輸入這7個圖像塊。

3D模型:3D人臉重構同樣是一個豐富訓練數據的方法,有許多論文在這方面有研究,但是我們只關注使用深度方法去進行3D人臉重構的部分。在[109]中,Masi用新的類內外觀變化去生成人臉圖片,包括姿態,形狀和表情,然后用VGG-19去訓練真實和增強的數據。[107]使用通用3D人臉和渲染的固定視角去減少計算代價。Richardson[129]使用了一個迭代3D CNN,通過使用輔助輸入通道表示之前網絡的輸出作為用於重建3D人臉的圖像,如圖12

Dou[48]使用一個多任務CNN,將3D人臉重構任務划分成神經3D重構和表情3D重構。Tran[155]直接通過一個非常深的CNN結構去回歸3D可變型人臉模型(3d morphable face model,3DMM)。An[208]采用3DMM去合成各種姿態和表情的人臉圖片,然后通過MMD去減少合成數據與真實數據之間的鴻溝。

CNN模型:不采用先從2D圖像進行3D重構然后將其映射回2D的各種不同的姿態的方法,CNN能直接生成2D的圖片。在多角度感知中(multi-view perceptron,MVP)[231],判別性的隱藏層神經元可以學習ID特征,而隨機隱藏神經元可以去抓取視角特征。通過采樣不同的隨機神經元,不同姿態的人臉圖片都是合成的。類似[201],Qian[200]使用了7個Recon codes將人臉以7個不同的姿態進行旋轉,然后提出了一個unpair-supervised方法去學習人臉變化的表征,而不是通過Recon code去做有監督

GAN模型:在使用一個3D模型生成側面圖像,DA-GAN[221]可以通過GAN提煉該圖像,該GAN結合了數據分布和人臉知識(姿態和ID認知loss)的先驗。CVAE-GAN[11]通過將GAN與一個變分自動編碼器去增強數據,然后利用了統計和成對的特征匹配去完成訓練過程,且手里更快更穩定。在從噪音中合成不同人臉之外,許多文獻也會去探索如何將ID和人臉的變化進行解耦,從而通過交換不同的變化來合成新的人臉。在CG-GAN[170]中,生成器直接將輸入圖像的每個表征解析為變化編碼和ID編碼,並重新組合這些編碼以進行交叉生成,而判別器確保生成的圖像的真實性。Bao[12]提取一個輸入圖片的表征和任何其他人臉圖片的屬性表征,然后通過重組這些表征生產新的人臉。該工作在生產真實和ID表示的人臉圖片上展現了超強的性能,甚至是訓練集之外的數據。不同於之前的將分類器作為觀測者,FaceID-GAN[206]提出一個三角色GAN,其中分類器同時與判別器合作,去和生成器在兩個方面(人臉ID和圖像質量)做競爭。

4.2 many-to-one的歸一化

該方法是生成正臉,並減少測試數據的變化性,從而讓人臉能夠容易做對齊和驗證。該方法可以簡單歸類為SAE,CNN和GAN三種。
SAE:提出的堆疊漸進式自動編碼器(stacked progressive autoencoders,SPAE)[80]漸進的將非正臉通過幾個自動編碼器進行堆疊映射到正臉上。在[195]中,一個結合了共享ID單元(identity units)和遞歸姿態單元的一個遞歸卷積編碼解碼網絡(recurrent convolutional encoder-decoder)在每個時間步上通過控制信號去渲染旋轉的目標。ZHang[218]通過設置正臉和多個隨機臉為目標值構建了一個many-to-one編碼。

CNN:Zhu[230]在規范視角上,使用一個有特征提取模塊和正臉重構模塊組成的CNN去提取人臉身份保留特征從而重構人臉。Zhu[232]根據人臉圖像的對策和外形選擇規范視角的圖片,然后通過一個CNN基於最小化重構loss去重構正臉。Yim[201]提出一個多任務網絡,其能夠通過使用用戶遠程編碼(user's remote code),旋轉一個任意姿態和光照的人臉到目標姿態人臉上。[73]根據它們之間的像素位移場將非正臉圖像變換為正臉圖像。

GAN:[75]提出一個兩路徑的生產對抗網絡(two-pathway GAN, TP-GAN),其包含四個定點關鍵點人臉塊網絡和一個全局的編碼解碼網絡。通過結合對抗loss,對稱loss和ID保留loss,TP-GAN生成一個正臉角度的同時保留了全局結構和局部信息,如圖13.

在解耦表征學習生成對抗網絡(DR-GAN)[156]中,編碼器生成身份表征,並且解碼器使用該表征和姿態編碼合成指定姿態的人臉。Yin[204]將3DMM引入到GAN結構中,以提供外形和外觀先驗,從而知道生成器生成正臉。

5 人臉數據集和評估方案

在過去三十多年中,人臉數據集從小型到大型從單源到多源,從約束場景到無約束的真實世界場景。如圖14


隨着虛弱簡單數據集變得飽和,越來越多復雜的數據集被不斷的提出。可以說數據集本身的提出,也幫助FR的發展指明了方向。在本部分中,主要簡單介紹下主流數據集。

5.1 大規模通用訓練數據集

要想有很好的深度FR,必須要有足夠大的訓練集。Zhou[228]認為深度學習加大量的數據可以提升FR的性能。MegaFace挑戰的結果揭示了之前的深度FR通常都是基於大於50十萬張圖片和2萬個ID上訓練的。深度FR早期的工作通常都是基於私有訓練數據集的。Facebook的深度人臉模型[153]是在4千個ID,4百萬張圖片上訓練的;Google的FaceNet[137]是在3百萬個ID,2億張圖片上訓練的;DeepID系列模型[145,146,149,177]是在1萬個Id,20十萬個圖片上。雖然他們宣稱打破了記錄,可是卻沒法通過公開的數據集去復現他們的結果。

為了處理這個問題,CASIA-WebFace[198]首次提供了一個超大數據集,其中包含1w個名人,50十萬張圖片。基於其數據集的量和簡單的使用方法,它變成了學術界的一個標准數據集。然而因為其數據量和ID不夠多,還是無法推進更多更好的深度學習方法。當前已經有了不少公開的數據集,如MS-Celeb-1M[59], VGGface2[20], MegaFace[83,112].圖15

這些大型訓練集都是從深度和廣度上進行擴展。VGGFace2的是基於深度的大規模訓練集,其限制了ID的個數擴展了每個ID的圖片個數。數據集的深度增強了模型處理較大類內變化的能力,例如光照,姿態和年齡;而MS-Celeb-1M和Megeface(挑戰2)提供了基於廣度的大規模訓練集,其中包含了很多iD,不過限制了每個ID的圖片個數。數據集的廣度增強了模型處理類間變化的能力。Cao[20]在VGGFace2和MS-celeb1-M上進行模型訓練並做了系統性研究,並發現首先在MS-celeb-1M(廣度)上訓練然后在VGGFace2(深度)進行微調可以得到最優的結果。

當然不同數據集之間的對長尾分布的使用也是不同的,在MS-Celeb-1M挑戰2中,該數據集特別用尾數據來研究low-shot學習;中心部分用來作為挑戰1的任務且每個ID圖像的個數都逼近100張;VGGFace和VGGFace2只用了其分布前面部分;MegaFace使用了整個分布,盡可能包含所有圖片,其中每個ID最少3個圖片,最多2469個圖片。

在大多數數據集中會存在數據偏置問題,一個主要的原因就是每個數據集只覆蓋了人臉數據的部分分布。另一個原因是大多數數據集(VGGface2,Ms-celeb-1M)中的名人是在空開場合:笑着,化妝了,年輕,且漂亮。所以它們就和從日常生活中采集的(Megaface)不同。因此,基於這些數據集訓練的深度模型不能直接在一些特定場景使用,因為數據偏置。需要重新收集大量的標簽數據去從頭訓練一個模型或者重新收集無標簽塑化劑去進行領域自適應[166]或者使用其他方法。

幾個主流的benchmark如LFW無約束方案,MegaFace挑戰1,Ms-Celeb-1M挑戰 1&2,都是顯式的鼓勵研究者去收集和清洗一個大型數據集,從而增強網絡的能力。雖然數據工程對CV研究者是一個有價值的問題,可是工業界的人才往往熟知該門道。如lederboards上展示的,大多數都是由公司所占據,因為他們有着巨大計算力和數據。這個現象對於學術界開發新模型是不利的。

對於學術界,建立一個足夠大和干凈的數據集是十分有意義的。Deng[38]發現Ms-Celeb-1M里面有不少標簽噪音,他減少了該噪音,然后公開了清洗后的數據集。Microsoft和Deepglint聯合公開了從MS-Celeb-1M清洗后的最大干凈標簽數據集,其中包含4百萬張圖片和10萬個亞洲名人。

5.2 訓練方案

在訓練方案(training protocol)中,FR模型可以通過目標依賴或者獨立環境下進行評估,如圖16



目標依賴(subject-dependent):所有的測試ID都出現在訓練集中,所以該情況的問題可以看成是一個分類問題,其中特征都期望是可分的。該方案是FR發展的最早階段(2000年之前),如FERET[120],AR[106],只適合在一些小范圍的應用。MS-Celeb-1M是目前唯一的使用該方案的大型數據集。
目標獨立(subject-independent):測試ID通常不出現在訓練集中。因為無法將人臉分類給訓練集,所以目標獨立的表征是有必要的。因為人臉總是表現的相似的類內變化,深度模型可以在一個足夠大的通用ID數據集上學到很好的泛化能力,其中的關鍵就是學到判別性的大邊際深度特征。幾乎所有主流的人臉識別benchmark如LFW,PaSC[14],IJB-A/B/C和MegaFace,都需要測試的模型先基於目標獨立方案上進行訓練。

5.3 評估任務和性能指標

為了評估一個深度模型是否解決了現實生活中遇到的不同FR問題,設計了許多基於不同任務的測試集和場景,如表9.

在測試任務中,人臉識別模型的性能會基於人臉驗證,閉集人臉識別,開集人臉識別上評估,如圖16。每個人物都有對應的性能指標。

人臉驗證:人臉驗證與訪問控制系統,Re-ID和FR算法的應用程序獨立評估相關。它通常使用(receiver operating characteristic,ROC)和平均(accuracy,ACC)進行評估。給定一個閾值(獨立變量),ROC分析可以測量真接受率(true accept rate,tar),真正超過閾值的結果所占比例;假接受率(false accept rate,far)是不正確的超過閾值的結果所占比例。ACC是LFW采用的一個簡化指標,表示正確分類的比例。隨着深度FR的發展,測試數據集上的指標越來越嚴格地考慮安全程度,以便在大多數安全認證場景中當FAR保持在非常低的比例時,TAR能夠符合客戶的要求。PaSC在FAR等於\(10^{-2}\)時對TAR進行評估;IJB-A將其提高到\(TAR@10^{-3}FAR\);Megaface專注於\(TAR@10^{-6}FAR\); 而在MS-celeb-1M 挑戰3上,指標是\(TAR@10^{-9}FAR\).

閉集人臉識別:就是基於用戶的搜索,Rank-N和累積匹配特征(cumulative match characteristic, CMC)是該場景中常用的指標。Rank-N基於測試樣本搜索在排序結果前K個中返回測試樣本的正確結果百分比。CMC曲線表示在給定rank(獨立變量)測試樣本識別的比例。IJB-A/B/C主要使用rank-1和rank-5識別率。MegaFace挑戰系統性評估rank-1識別率,其中最好的結果在表6。

MS-Celeb-1M使用precision-coverage曲線去基於可變閾值\(t\)下測試識別性能。當得分低於閾值\(t\),則該測試樣本會被拒絕。算法之間對比就是看測試樣本到底測試正確了多少,如95%,99%,不同算法的評估在表7。

開集人臉識別:該場景是人臉搜索系統中較為常見的。這里識別系統應該拒絕那些未注冊的用戶。現在來說,很少有數據集是基於該任務考慮的。IJB-A引入了一個決策誤差權衡(decision errr tradeoff, DET),以將FNIR表征為FPIR的函數。The false positive identification rate (FPIR) measures what fraction of comparisons between
probe templates and non-mate gallery templates result in a match score exceeding T。the false negative identification rate (FNIR) measures what fraction of probe
searches will fail to match a mated gallery template above a score of T。算法基於低FPIR基礎(1%,10%)上,以FNIR來評估IJB-A數據集上算法的結果,如表8

5.4 評估場景和數據

有許多不同的數據集用於模擬現實生活中不同的場景,如表9。按照它們各自的特色,我們將這些場景划分成四個:

  • 跨因素的人臉識別;
  • 異質的人臉識別;
  • 多(單)媒體的人臉識別;
  • 工業界人臉識別


跨因素的人臉識別:因為復雜的非線性人臉外觀,由許多是人類自身導致的變化,如跨姿態,跨年齡,化妝。例如CALFW[225],MORPH[128],CACD[24]和FG-NET[1]都是基於不同年齡段的;CTP[138]只關注正臉和側臉,CPLFW[223]從LFW中提取的基於不同姿態的。

異質的人臉識別:主要是為了基於不同的視覺領域進行人臉匹配。領域鴻溝主要有傳感器設備和照相機設置引起的,如可見光和近紅外,照相和素描。例如,相片和素描的數據集,CUFSF[213]要難於CUFS[168]因為光照變化和變形。

多(單)媒體的人臉識別:理論上深度模型都是基於每個ID大量的圖片上訓練,然后基於每個ID一張圖片上測試。可是現實是,訓練集中每個ID的圖片很少,被稱為low-shot FR,例如MS-Celeb-1M 挑戰2;或者測試機中每個ID人臉通常采集自圖片和視頻,被稱為set-based FR,例如IJB-A和PaSC。

工業界人臉識別:雖然深度FR在一些標准benchmark上效果超過了人類,不過當深度FR在工業上應用的時候,我們需要關注更多的細節,如反欺騙(CASIA-FASD[219])和3D FR(Bosphorus[134],BU-3DFE[202]和FRGCv2[119]).對比公開的可用2D數據集,3D掃描很難獲取,而且開源的3D人臉數據集也受限掃描的圖片個數和ID個數,這也阻礙了3D深度FR的發展。

6 不同的識別場景

為了應對不同場景的數據集,需要很好的深度模型在大量數據集上訓練。然而,因為隱私問題,公開的數據集大部分來自名人的照片,基本沒法覆蓋不同場景下日常生活的圖像抓取。不同LFW中的高准確度,在megaface中,效果仍然沒法達到現實應用的地步。對於工業界,就是基於不同的目標場景收集一個較大數據集然后以此來提升效果。然而,這只是一個方面。因此,需要考慮如何在受限數據集基礎上采用更好的算法來明顯的提升結果。本部分,我們介紹幾個基於不同場景下的特殊算法。

6.1 跨因素的人臉識別

跨姿態人臉識別:如[138]中說明的,許多現存算法在正臉-正臉驗證改成正臉-側臉驗證時准確度降低10%,交叉姿態FR仍然是一個極端挑戰的場景。之前提到的方法包括"one-to-many增強",“many-to-one歸一化”,多輸入網絡和多任務學習還有其他算法都是用來應對該場景的方法。考慮這些方法需要額外的代價,[19]首次嘗試在深度特征空間中使用正臉化,而不是圖像空間中。一個深度殘差等效映射(deep residual equviariant mapping,DREAM)塊動態的在輸入表征上增加殘差去將側臉映射到正臉上。[27]提出結合特征提取與多角度子空間學習去同時讓特征變得姿態魯棒和判別性。

跨年齡人臉識別:跨年齡FR一直是一個極端的挑戰,因為隨着年齡的改變,人臉的外觀也伴隨巨大變化。一個直接的方法就是將輸入圖片以特定年齡進行合成。[49]提出的生成概率模型可以以短期階段進行建模年齡變化。Antipov[7]提出通過GAN進行年齡人臉合成,但是合成的人臉不能直接用來做人臉驗證,因為它是對ID的不完美表征。[6]使用局部流行自適應(local mainfold adaptation,LMA)方法去解決[7]中的問題。一個代替的方案是將年齡/ID組件進行解耦,然后提取年齡不變性表征。[172]提出了一個潛在ID分析(latent identity analysis,LIA)層去分別這兩個組件,如圖18.

在[224]中,年齡不變特征可以通過在年齡評估任務中基於表征減去年齡指定的因子。另外,還有其他方法用在跨年齡FR上,如,[15,60]微調CNN去做知識遷移。Wang[169]提出基於siamese深度網絡的多任務學習去應對年齡評估。Li[95]通過深度CNN整合了特征提取和度量學習。Yang[192]涉及了人臉驗證和年齡評估,利用一個復合訓練評價,整合簡單的像素級別的懲罰,基於年齡的GAN loss去達到年齡變換,其中的個人依賴評價可以保持ID信息的穩定。

化妝人臉識別:在化妝如此平常的今天,也同時因為明顯的人臉外觀改變給FR帶來巨大挑戰,基於匹配化妝和不化妝的人臉圖像研究一直受到持續性關注。[94]通過一個bi-level對抗網絡(BLAN)上從化妝的圖片上生成不化妝的圖片,然后用該合成的不化妝圖片進行驗證,如圖19.

[147]在開源的視頻上訓練了一個triplet網絡,然后基於小的化妝和不化妝數據集進行微調。

6.2 異質的人臉識別

NIR-VIS人臉識別:由於在低光場景下近紅外光譜(NIS)圖像的優異性能,NIS圖像被廣泛應用於監視系統。NIS圖像廣泛用在監控系統中,因為大多數數據集有可見光(visible light,VIS)圖譜圖像,如何從VIS圖像中識別出一個NIR人臉也成了熱點。[103,135]通過微調遷移這個VIS深度網絡到NIR領域中。[90]使用一個VIS CNN以交叉光譜幻視的方式變換NIR圖像到VIS人臉,然后從低秩嵌入向量上恢復一個低秩結構。[127]訓練了兩個網絡,一個VISNet(可見圖像)和一個NIRNet(近紅外線圖像),通過創建一個siamese網絡耦合他們輸出的特征。[65,66]將該網絡的高層划分到一個NIR層,一個VIS層和一個NIR-VIS共享層;然后,通過NIR-VIs共享層學習一個模態不變特征。[144]將交叉光譜人臉幻視和判別性特征學習嵌入到一個端到端的對抗網絡中。在[181]中,低秩相關和交叉模態排序用來緩解該語義鴻溝。

低分辨率人臉識別:雖然深度網絡對於低分辨率有一定的魯棒性,仍他有一些文獻研究如何提升低分辨率的FR。例如[207]提出一個有兩個分叉結構的CNN(一個超分辨率網絡和一個特征提取網絡)去映射高和低分辨率圖片到一個通用空間上,該空間中類內距離小於類間距離。

相片-素描人臉識別:照片-素描FR可以有助於法律人士快速進行嫌疑人認證。通常該領域的使用可以划分成兩類:

  • 一個是使用遷移學習去直接將照片匹配到素描上,這里深度網絡受限使用一個照片人臉數據集去訓練,然后使用小的素描數據集[51,110]去微調;
  • 使用圖像到圖像的變換,將照片變換到素描上,或者將素描變換到照片上,然后在目標領域中進行FR。[211]將生成損失和判別性正則加到全卷積網絡上實現相片到素描的變換。

[209]利用一個分支的全卷積神經網絡(branched fully convolutional neural network, BFCN)去生成一個結構保留的素描和一個紋理保留的素描,然后將它們通過一個概率方法進行融合。近期,GAN在圖片生成上獲得了不小的轟動。[86,199,229]使用兩個生成器\(G_A\)\(G_B\),生成從相片到素描和素描到相片,圖20

基於[229],[165]提出一個多對抗網絡通過利用生成器網絡中不同分辨率的特征圖的隱式表征去避免偽造的圖片。

6.3 多(單)媒體的人臉識別

low-shot人臉識別
對於許多具體應用,如監控和安保,FR系統應該基於很少的訓練樣本或者一個ID一個樣本進行訓練。low-shot學習可以歸類為增大訓練數據和學習更強的特征。[68]使用3D模型去生成各個姿態的圖像,然后適應深度領域去處理其他變化,例如模糊,遮擋和表情(圖21).

[32]使用數據增強方法和GAN去做姿態變換和屬性加速,以增大訓練數據集的規模。[182]提出一個使用CNN和最近鄰模型的混合分類器。[58]使用one-shot類和正常類的權重向量的范數對齊以解決數據不平衡問題。[30]提出一個增強softmax以包含最優dropout,選擇性衰減,L2 歸一化模型級別的優化。Yin[205]通過將主成分從常規類轉移到low-shot類來增強low-shot類的特征空間,以鼓勵low-shot類的方差來模擬常規類的方差。

set/template-based人臉識別:set/template-based FR問題假設測試樣本和訓練樣本都是用媒體集來表示的如圖像和視頻,而不只是其中一個。在從每個媒體上獨立的學習了表征集合,基於其應用兩個不同的策略做FR:

  • 使用這些表征做基於兩個集合的相似性對比,然后將結果池化到一個,最終的得分,就和最大池化[108],平均池化[105]和它們的變種[220,17]。
  • 通過平均或者最大池化將人臉表征融合起來,然后對每個集合生產一個單一表征,然后進行兩個集合的對比,這里我們成為特征池化[28,108,132]。

另外,還有許多其他基於該方向的應用,如[62]提出一個深度異質特征融合網絡來利用不同CNN生成的特征完備性信息。

視頻人臉識別:視頻人臉識別中有兩個關鍵問題:

  • 整合基於不同幀之間的信息去構建一個視頻人臉的表征,
  • 要處理視頻自帶的模糊,姿態變化和遮擋。

對於幀融合,[196]提出一個神經融合網絡(neural aggregation network,nan ),在融合模塊中,有基於一個memory驅動的兩個注意力塊,生成128維的特征向量,(圖22).

Rao[125]直接基於度量學習和對抗學習進行組合,去融合原始視頻幀。在處理壞幀時,[126]通過將該操作時為一個馬爾可夫決策過程去丟棄該幀,然后通過一個深度強化學習框架去訓練這個注意力模型。[47]人工去模糊清晰的圖片,然后用來訓練去學習模糊魯棒性的人臉表征。Parchami[114]使用CNN用高質量人臉去重構一個低質量的視頻。

6.4 工業界的人臉識別

3D人臉識別:3D FR繼承了2D方法上的優勢,但是3DFR沒有太多深度網絡的使用研究,主要是因為缺少大量的標簽數據。為了增強3D訓練數據集,大多數工作主要是使用"one-to-many增強"去合成3D人臉。然而,提取3D人臉的深度特征的高效方法依然需要探索。[84]基於少量的3D掃描去微調一個2DCNN。[235]使用一個3通道圖像(對應正常向量的深度,方位和elevation 角度)作為輸入然后最小化平均預測log-loss。[210]從candide-3人臉模型去選擇30個特征點來屬性化人臉,然后進行了無監督的人臉深度數據預訓練和有監督微調。

人臉反欺騙:隨着FR技術的成功,伴隨的是各種欺騙攻擊,比如打印欺騙,視頻播放欺騙,3D面具欺騙等等。人臉反欺騙也成了識別人臉是否是活的一個重要部分。因為他同時需要識別人臉(真還是假ID),所以我們將它看成是一種FR場景。[8]提出一個新穎的兩流CNN,其中局部特征獨立於空間人臉區域的判別欺騙圖像塊,整體深度圖確保輸入的活體樣本具有類似面部的深度。[190]提出一個LSTM-CNN結構,學習時序特征去聯合預測一個視頻中多個人臉。[91,117]在一個包含了真,假人臉數據集上微調一個預訓練的模型。

移動端人臉識別:隨着手機的出現,平板電腦和增強現實,FR已應用於移動設備。因為計算力的限制,在這些設備中的識別任務需要輕量級而且實時的運行。基於之前提到的[33,69,76,217]提出了輕量級的深度網絡,這些網絡可以用在這里的場景。[152]提出一個人多batch方法,首先生成k個人臉的batch,然后基於這個minibatch,通過依賴所有\(k_2-k\)對構建一個全梯度的無偏估計。

7 總結

[139,140]對如何減少人臉欺騙做了一些 工作
[166]關於深度領域適應值得關注。

參考文獻:

[1] Fg-net aging database. http://www.fgnet.rsunit.com.
[2] Ms-celeb-1m challenge 3. http://trillionpairs.deepglint.com.
[3] A. F. Abate, M. Nappi, D. Riccio, and G. Sabatino. 2d and 3d face recognition: A survey. Pattern recognition letters, 28(14):1885–1906, 2007.
[4] W. Abdalmageed, Y. Wu, S. Rawls, S. Harel, T. Hassner, I. Masi, J. Choi, J. Lekust, J. Kim, and P. Natarajan. Face recognition using deep multi-pose representations. In WACV, pages 1–9, 2016.
[5] T. Ahonen, A. Hadid, and M. Pietikainen. Face description with local binary patterns: Application to face recognition. IEEE Trans. Pattern Anal. Machine Intell., 28(12):2037–2041, 2006.
[6] G. Antipov, M. Baccouche, and J.-L. Dugelay. Boosting cross-age face verification via generative age normalization. In IJCB, 2017.
[7] G. Antipov, M. Baccouche, and J.-L. Dugelay. Face aging with conditional generative adversarial networks. arXiv preprint arXiv:1702.01983, 2017.
[8] Y. Atoum, Y. Liu, A. Jourabloo, and X. Liu. Face anti-spoofing using patch and depth-based cnns. In IJCB, pages 319–328. IEEE, 2017.
[9] A. Bansal, C. Castillo, R. Ranjan, and R. Chellappa. The dos and donts for cnn-based face verification. arXiv preprint arXiv:1705.07426, 5, 2017.
[10] A. Bansal, A. Nanduri, C. Castillo, R. Ranjan, and R. Chellappa. Umdfaces: An annotated face dataset for training deep networks. arXiv preprint arXiv:1611.01484, 2016.
[11] J. Bao, D. Chen, F. Wen, H. Li, and G. Hua. Cvae-gan: finegrained image generation through asymmetric training. arXiv preprint arXiv:1703.10155, 2017.
[12] J. Bao, D. Chen, F. Wen, H. Li, and G. Hua. Towards open-set identity preserving face synthesis. In CVPR, pages 6713–6722, 2018.
[13] P. N. Belhumeur, J. P. Hespanha, and D. J. Kriegman. Eigenfaces vs. fisherfaces: Recognition using class specific linear projection. IEEE Trans. Pattern Anal. Mach. Intell., 19(7):711–720, 1997.
[14] J. R. Beveridge, P. J. Phillips, D. S. Bolme, B. A. Draper, G. H. Givens, Y. M. Lui, M. N. Teli, H. Zhang, W. T. Scruggs, K. W. Bowyer, et al. The challenge of face recognition from digital point-and-shoot cameras. In BTAS, pages 1–8. IEEE, 2013.
[15] S. Bianco. Large age-gap face verification by feature injection in deep networks. Pattern Recognition Letters, 90:36–42, 2017.
[16] V. Blanz and T. Vetter. Face recognition based on fitting a 3d morphable model. IEEE Transactions on pattern analysis and machine intelligence, 25(9):1063–1074, 2003.
[17] N. Bodla, J. Zheng, H. Xu, J.-C. Chen, C. Castillo, and R. Chellappa. Deep heterogeneous feature fusion for template-based face recognition. In WACV, pages 586–595. IEEE, 2017.
[18] K. W. Bowyer, K. Chang, and P. Flynn. A survey of approaches and challenges in 3d and multi-modal 3d+ 2d face recognition. Computer vision and image understanding, 101(1):1–15, 2006.
[19] K. Cao, Y. Rong, C. Li, X. Tang, and C. C. Loy. Pose-robust face recognition via deep residual equivariant mapping. arXiv preprint arXiv:1803.00839, 2018.
[20] Q. Cao, L. Shen, W. Xie, O. M. Parkhi, and A. Zisserman. Vggface2: A dataset for recognising faces across pose and age. arXiv preprint arXiv:1710.08092, 2017.
[21] Z. Cao, Q. Yin, X. Tang, and J. Sun. Face recognition with learningbased descriptor. In CVPR, pages 2707–2714. IEEE, 2010.
[22] T.-H. Chan, K. Jia, S. Gao, J. Lu, Z. Zeng, and Y. Ma. Pcanet: A simple deep learning baseline for image classification? IEEE Transactions on Image Processing, 24(12):5017–5032, 2015.
[23] B. Chen, W. Deng, and J. Du. Noisy softmax: improving the generalization ability of dcnn via postponing the early softmax saturation. arXiv preprint arXiv:1708.03769, 2017.
[24] B.-C. Chen, C.-S. Chen, and W. H. Hsu. Cross-age reference coding for age-invariant face recognition and retrieval. In ECCV, pages 768–783. Springer, 2014.
[25] D. Chen, X. Cao, L. Wang, F. Wen, and J. Sun. Bayesian face revisited: A joint formulation. In ECCV, pages 566–579. Springer, 2012.
[26] D. Chen, X. Cao, F. Wen, and J. Sun. Blessing of dimensionality: Highdimensional feature and its efficient compression for face verification. In CVPR, pages 3025–3032, 2013.
[27] G. Chen, Y. Shao, C. Tang, Z. Jin, and J. Zhang. Deep transformation learning for face recognition in the unconstrained scene. Machine Vision and Applications, pages 1–11, 2018.
[28] J.-C. Chen, V. M. Patel, and R. Chellappa. Unconstrained face verification using deep cnn features. In WACV, pages 1–9. IEEE, 2016.
[29] J.-C. Chen, R. Ranjan, A. Kumar, C.-H. Chen, V. M. Patel, and R. Chellappa. An end-to-end system for unconstrained face verification with deep convolutional neural networks. In ICCV Workshops, pages 118–126, 2015.
[30] Y. Cheng, J. Zhao, Z. Wang, Y. Xu, K. Jayashree, S. Shen, and J. Feng. Know you at one glance: A compact vector representation for low-shot learning. In CVPR, pages 1924–1932, 2017.
[31] I. Chingovska, A. Anjos, and S. Marcel. On the effectiveness of local binary patterns in face anti-spoofing. 2012.
[32] J. Choe, S. Park, K. Kim, J. H. Park, D. Kim, and H. Shim. Face generation for low-shot learning using generative adversarial networks. In ICCV Workshops, pages 1940–1948. IEEE, 2017.
[33] F. Chollet. Xception: Deep learning with depthwise separable convolutions. arXiv preprint, 2016.
[34] A. R. Chowdhury, T.-Y. Lin, S. Maji, and E. Learned-Miller. One-tomany face recognition with bilinear cnns. In WACV, pages 1–9. IEEE, 2016.
[35] F. Cole, D. Belanger, D. Krishnan, A. Sarna, I. Mosseri, and W. T. Freeman. Synthesizing normalized faces from facial identity features. In CVPR, pages 3386–3395, 2017.
[36] N. Crosswhite, J. Byrne, C. Stauffer, O. Parkhi, Q. Cao, and A. Zisserman. Template adaptation for face verification and identification. In FG 2017, pages 1–8, 2017.
[37] J. Deng, S. Cheng, N. Xue, Y. Zhou, and S. Zafeiriou. Uv-gan: Adversarial facial uv map completion for pose-invariant face recognition. arXiv preprint arXiv:1712.04695, 2017.
[38] J. Deng, J. Guo, and S. Zafeiriou. Arcface: Additive angular margin loss for deep face recognition. arXiv preprint arXiv:1801.07698, 2018.
[39] J. Deng, Y. Zhou, and S. Zafeiriou. Marginal loss for deep face recognition. In CVPR Workshops, volume 4, 2017.
[40] W. Deng, J. Hu, and J. Guo. Extended src: Undersampled face recognition via intraclass variant dictionary. IEEE Trans. Pattern Anal. Machine Intell., 34(9):1864–1870, 2012.
[41] W. Deng, J. Hu, and J. Guo. Compressive binary patterns: Designing a robust binary face descriptor with random-field eigenfilters. IEEE Trans. Pattern Anal. Mach. Intell., PP(99):1–1, 2018.
[42] W. Deng, J. Hu, and J. Guo. Face recognition via collaborative representation: Its discriminant nature and superposed representation. IEEE Trans. Pattern Anal. Mach. Intell., PP(99):1–1, 2018.
[43] W. Deng, J. Hu, J. Guo, H. Zhang, and C. Zhang. Comments on “globally maximizing, locally minimizing: Unsupervised discriminant projection with applications to face and palm biometrics”. IEEE Trans. Pattern Anal. Mach. Intell., 30(8):1503–1504, 2008.
[44] W. Deng, J. Hu, J. Lu, and J. Guo. Transform-invariant pca: A unified approach to fully automatic facealignment, representation, and recognition. IEEE Trans. Pattern Anal. Mach. Intell., 36(6):1275–1284, June 2014.
[45] W. Deng, J. Hu, N. Zhang, B. Chen, and J. Guo. Fine-grained face verification: Fglfw database, baselines, and human-dcmn partnership. Pattern Recognition, 66:63–73, 2017.
[46] C. Ding and D. Tao. Robust face recognition via multimodal deep face representation. IEEE Transactions on Multimedia, 17(11):2049–2058, 2015.
[47] C. Ding and D. Tao. Trunk-branch ensemble convolutional neural networks for video-based face recognition. IEEE transactions on pattern analysis and machine intelligence, 2017.
[48] P. Dou, S. K. Shah, and I. A. Kakadiaris. End-to-end 3d face reconstruction with deep neural networks. In CVPR, volume 5, 2017.
[49] C. N. Duong, K. G. Quach, K. Luu, M. Savvides, et al. Temporal nonvolume preserving approach to facial age-progression and age-invariant face recognition. arXiv preprint arXiv:1703.08617, 2017.
[50] H. El Khiyari and H. Wechsler. Age invariant face recognition using convolutional neural networks and set distances. Journal of Information Security, 8(03):174, 2017.
[51] C. Galea and R. A. Farrugia. Forensic face photo-sketch recognition using a deep learning-based architecture. IEEE Signal Processing Letters, 24(11):1586–1590, 2017.
[52] M. M. Ghazi and H. K. Ekenel. A comprehensive analysis of deep learning based representation for face recognition. In CVPR Workshops, volume 26, pages 34–41, 2016.
[53] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio. Generative adversarial nets. In NIPS, pages 2672–2680, 2014.
[54] P. J. Grother and L. N. Mei. Face recognition vendor test (frvt) performance of face identification algorithms nist ir 8009. NIST Interagency/Internal Report (NISTIR) - 8009, 2014.
[55] G. Guo, L. Wen, and S. Yan. Face authentication with makeup changes. IEEE Transactions on Circuits and Systems for Video Technology, 24(5):814–825, 2014.
[56] S. Guo, S. Chen, and Y. Li. Face recognition based on convolutional neural network and support vector machine. In IEEE International Conference on Information and Automation, pages 1787–1792, 2017.
[57] Y. Guo, J. Zhang, J. Cai, B. Jiang, and J. Zheng. 3dfacenet: Real-time dense face reconstruction via synthesizing photo-realistic face images. 2017.
[58] Y. Guo and L. Zhang. One-shot face recognition by promoting underrepresented classes. arXiv preprint arXiv:1707.05574, 2017.
[59] Y. Guo, L. Zhang, Y. Hu, X. He, and J. Gao. Ms-celeb-1m: A dataset and benchmark for large-scale face recognition. In ECCV, pages 87– 102. Springer, 2016.
[60] A. Hasnat, J. Bohn´e, J. Milgram, S. Gentric, and L. Chen. Deepvisage: Making face recognition simple yet with powerful generalization skills. arXiv preprint arXiv:1703.08388, 2017.
[61] M. Hasnat, J. Bohn´e, J. Milgram, S. Gentric, L. Chen, et al. von mises-fisher mixture model-based deep learning: Application to face verification. arXiv preprint arXiv:1706.04264, 2017.
[62] M. Hayat, M. Bennamoun, and S. An. Learning non-linear reconstruction models for image set classification. In CVPR, pages 1907–1914, 2014.
[63] M. Hayat, S. H. Khan, N. Werghi, and R. Goecke. Joint registration and representation learning for unconstrained face identification. In CVPR, pages 2767–2776, 2017.
[64] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, pages 770–778, 2016.
[65] R. He, X. Wu, Z. Sun, and T. Tan. Learning invariant deep representation for nir-vis face recognition. In AAAI, volume 4, page 7, 2017.
[66] R. He, X. Wu, Z. Sun, and T. Tan. Wasserstein cnn: Learning invariant features for nir-vis face recognition. arXiv preprint arXiv:1708.02412, 2017.
[67] X. He, S. Yan, Y. Hu, P. Niyogi, and H.-J. Zhang. Face recognition using laplacianfaces. IEEE Trans. Pattern Anal. Mach. Intell., 27(3):328–340, 2005.
[68] S. Hong, W. Im, J. Ryu, and H. S. Yang. Sspp-dan: Deep domain adaptation network for face recognition with single sample per person. arXiv preprint arXiv:1702.04069, 2017.
[69] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam. Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861, 2017.
[70] G. Hu, Y. Yang, D. Yi, J. Kittler, W. Christmas, S. Z. Li, and T. Hospedales. When face recognition meets with deep learning: an evaluation of convolutional neural networks for face recognition. In ICCV workshops, pages 142–150, 2015.
[71] J. Hu, Y. Ge, J. Lu, and X. Feng. Makeup-robust face verification. In ICASSP, pages 2342–2346. IEEE, 2013.
[72] J. Hu, L. Shen, and G. Sun. Squeeze-and-excitation networks. arXiv preprint arXiv:1709.01507, 2017.
[73] L. Hu, M. Kan, S. Shan, X. Song, and X. Chen. Ldf-net: Learning a displacement field network for face recognition across pose. In FG 2017, pages 9–16. IEEE, 2017.
[74] G. B. Huang, M. Ramesh, T. Berg, and E. Learned-Miller. Labeled faces in the wild: A database for studying face recognition in unconstrained environments. Technical report, Technical Report 07-49, University of Massachusetts, Amherst, 2007.
[75] R. Huang, S. Zhang, T. Li, R. He, et al. Beyond face rotation: Global and local perception gan for photorealistic and identity preserving frontal view synthesis. arXiv preprint arXiv:1704.04086, 2017.
[76] F. N. Iandola, S. Han, M. W. Moskewicz, K. Ashraf, W. J. Dally, and K. Keutzer. Squeezenet: Alexnet-level accuracy with 50x fewer parameters and¡ 0.5 mb model size. arXiv preprint arXiv:1602.07360, 2016.
[77] M. Jaderberg, K. Simonyan, A. Zisserman, et al. Spatial transformer networks. In NIPS, pages 2017–2025, 2015.
[78] R. Jafri and H. R. Arabnia. A survey of face recognition techniques. Jips, 5(2):41–68, 2009.
[79] H. Jegou, M. Douze, and C. Schmid. Product quantization for nearest neighbor search. IEEE Transactions on Pattern Analysis & Machine Intelligence, 33(1):117, 2011.
[80] M. Kan, S. Shan, H. Chang, and X. Chen. Stacked progressive autoencoders (spae) for face recognition across poses. In CVPR, pages 1883–1890, 2014.
[81] M. Kan, S. Shan, and X. Chen. Bi-shifting auto-encoder for unsupervised domain adaptation. In ICCV, pages 3846–3854, 2015.
[82] M. Kan, S. Shan, and X. Chen. Multi-view deep network for cross-view classification. In CVPR, pages 4847–4855, 2016.
[83] I. Kemelmacher-Shlizerman, S. M. Seitz, D. Miller, and E. Brossard. The megaface benchmark: 1 million faces for recognition at scale. In CVPR, pages 4873–4882, 2016.
[84] D. Kim, M. Hernandez, J. Choi, and G. Medioni. Deep 3d face identification. arXiv preprint arXiv:1703.10714, 2017.
[85] M. Kim, S. Kumar, V. Pavlovic, and H. Rowley. Face tracking and recognition with visual constraints in real-world videos. In CVPR, pages 1–8. IEEE, 2008.
[86] T. Kim, M. Cha, H. Kim, J. Lee, and J. Kim. Learning to discover crossdomain relations with generative adversarial networks. arXiv preprint arXiv:1703.05192, 2017.
[87] B. F. Klare, B. Klein, E. Taborsky, A. Blanton, J. Cheney, K. Allen, P. Grother, A. Mah, and A. K. Jain. Pushing the frontiers of unconstrained face detection and recognition: Iarpa janus benchmark a. In CVPR, pages 1931–1939, 2015.
[88] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, pages 1097–1105, 2012.
[89] Z. Lei, M. Pietikainen, and S. Z. Li. Learning discriminant face descriptor. IEEE Trans. Pattern Anal. Machine Intell., 36(2):289–302, 2014.
[90] J. Lezama, Q. Qiu, and G. Sapiro. Not afraid of the dark: Nir-vis face recognition via cross-spectral hallucination and low-rank embedding. In CVPR, pages 6807–6816. IEEE, 2017.
[91] L. Li, X. Feng, Z. Boulkenafet, Z. Xia, M. Li, and A. Hadid. An original face anti-spoofing approach using partial convolutional neural network. In IPTA, pages 1–6. IEEE, 2016.
[92] S. Z. Li, D. Yi, Z. Lei, and S. Liao. The casia nir-vis 2.0 face database. In CVPR workshops, pages 348–353. IEEE, 2013.
[93] S. Z. Li, L. Zhen, and A. Meng. The hfb face database for heterogeneous face biometrics research. In CVPR Workshops, pages 1–8, 2009.
[94] Y. Li, L. Song, X. Wu, R. He, and T. Tan. Anti-makeup: Learning a bi-level adversarial network for makeup-invariant face verification. arXiv preprint arXiv:1709.03654, 2017.
[95] Y. Li, G. Wang, L. Nie, Q. Wang, and W. Tan. Distance metric optimization driven convolutional neural network for age invariant face recognition. Pattern Recognition, 75:51–62, 2018.
[96] L. Lin, G. Wang, W. Zuo, X. Feng, and L. Zhang. Cross-domain visual matching via generalized similarity measure and feature learning. IEEE Transactions on Pattern Analysis & Machine Intelligence, 39(6):1089– 1102, 2016.
[97] T.-Y. Lin, A. RoyChowdhury, and S. Maji. Bilinear cnn models for fine-grained visual recognition. In ICCV, pages 1449–1457, 2015.
[98] C. Liu and H. Wechsler. Gabor feature based classification using the enhanced fisher linear discriminant model for face recognition. Image processing, IEEE Transactions on, 11(4):467–476, 2002.
[99] J. Liu, Y. Deng, T. Bai, Z. Wei, and C. Huang. Targeting ultimate accuracy: Face recognition via deep embedding. arXiv preprint arXiv:1506.07310, 2015.
[100] W. Liu, Y. Wen, Z. Yu, M. Li, B. Raj, and L. Song. Sphereface: Deep hypersphere embedding for face recognition. In CVPR, volume 1, 2017.
[101] W. Liu, Y. Wen, Z. Yu, and M. Yang. Large-margin softmax loss for convolutional neural networks. In ICML, pages 507–516, 2016.
[102] W. Liu, Y.-M. Zhang, X. Li, Z. Yu, B. Dai, T. Zhao, and L. Song. Deep hyperspherical learning. In NIPS, pages 3953–3963, 2017.
[103] X. Liu, L. Song, X. Wu, and T. Tan. Transferring deep representation for nir-vis heterogeneous face recognition. In ICB, pages 1–8. IEEE, 2016.
[104] Y. Liu, H. Li, and X. Wang. Rethinking feature discrimination and polymerization for large-scale recognition. arXiv preprint arXiv:1710.00870, 2017.
[105] J. Lu, G. Wang, W. Deng, P. Moulin, and J. Zhou. Multi-manifold deep metric learning for image set classification. In CVPR, pages 1137–1145, 2015.
[106] A. M. Martinez. The ar face database. CVC Technical Report24, 1998.
[107] I. Masi, T. Hassner, A. T. Tran, and G. Medioni. Rapid synthesis of massive face sets for improved face recognition. In FG 2017, pages 604–611. IEEE, 2017.
[108] I. Masi, S. Rawls, G. Medioni, and P. Natarajan. Pose-aware face recognition in the wild. In CVPR, pages 4838–4846, 2016.
[109] I. Masi, A. T. Tr?n, T. Hassner, J. T. Leksut, and G. Medioni. Do we really need to collect millions of faces for effective face recognition? In ECCV, pages 579–596. Springer, 2016.
[110] P. Mittal, M. Vatsa, and R. Singh. Composite sketch recognition via deep network-a transfer learning approach. In ICB, pages 251–256. IEEE, 2015.
[111] B. Moghaddam, W. Wahid, and A. Pentland. Beyond eigenfaces: probabilistic matching for face recognition. Automatic Face and Gesture Recognition, 1998. Proc. Third IEEE Int. Conf., pages 30–35, Apr 1998.
[112] A. Nech and I. Kemelmacher-Shlizerman. Level playing field for million scale face recognition. In CVPR, pages 3406–3415. IEEE, 2017.
[113] S. J. Pan and Q. Yang. A survey on transfer learning. IEEE Transactions on knowledge and data engineering, 22(10):1345–1359, 2010.
[114] M. Parchami, S. Bashbaghi, E. Granger, and S. Sayed. Using deep autoencoders to learn robust domain-invariant representations for stillto- video face recognition. In AVSS, pages 1–6. IEEE, 2017.
[115] C. J. Parde, C. Castillo, M. Q. Hill, Y. I. Colon, S. Sankaranarayanan, J.-C. Chen, and A. J. O’Toole. Deep convolutional neural network features and the original image. arXiv preprint arXiv:1611.01751, 2016.
[116] O. M. Parkhi, A. Vedaldi, A. Zisserman, et al. Deep face recognition. In BMVC, volume 1, page 6, 2015.
[117] K. Patel, H. Han, and A. K. Jain. Cross-database face antispoofing with robust feature representation. In Chinese Conference on Biometric Recognition, pages 611–619. Springer, 2016.
[118] X. Peng, X. Yu, K. Sohn, D. N. Metaxas, and M. Chandraker. Reconstruction-based disentanglement for pose-invariant face recognition. intervals, 20:12, 2017.
[119] P. J. Phillips, P. J. Flynn, T. Scruggs, K. W. Bowyer, J. Chang, K. Hoffman, J. Marques, J. Min, and W. Worek. Overview of the face recognition grand challenge. In CVPR, volume 1, pages 947–954. IEEE, 2005.
[120] P. J. Phillips, H. Wechsler, J. Huang, and P. J. Rauss. The feret database and evaluation procedure for face-recognition algorithms. Image & Vision Computing J, 16(5):295–306, 1998.
[121] X. Qi and L. Zhang. Face recognition via centralized coordinate learning. arXiv preprint arXiv:1801.05678, 2018.
[122] R. Ranjan, C. D. Castillo, and R. Chellappa. L2-constrained softmax loss for discriminative face verification. arXiv preprint arXiv:1703.09507, 2017.
[123] R. Ranjan, S. Sankaranarayanan, A. Bansal, N. Bodla, J. C. Chen, V. M. Patel, C. D. Castillo, and R. Chellappa. Deep learning for understanding faces: Machines may be just as good, or better, than humans. IEEE Signal Processing Magazine, 35(1):66–83, 2018.
[124] R. Ranjan, S. Sankaranarayanan, C. D. Castillo, and R. Chellappa. An all-in-one convolutional neural network for face analysis. In FG 2017, pages 17–24. IEEE, 2017.
[125] Y. Rao, J. Lin, J. Lu, and J. Zhou. Learning discriminative aggregation network for video-based face recognition. In CVPR, pages 3781–3790, 2017.
[126] Y. Rao, J. Lu, and J. Zhou. Attention-aware deep reinforcement learning for video face recognition. In CVPR, pages 3931–3940, 2017.
[127] C. Reale, N. M. Nasrabadi, H. Kwon, and R. Chellappa. Seeing the forest from the trees: A holistic approach to near-infrared heterogeneous face recognition. In CVPR Workshops, pages 320–328. IEEE, 2016.
[128] K. Ricanek and T. Tesafaye. Morph: A longitudinal image database of normal adult age-progression. In FGR, pages 341–345. IEEE, 2006.
[129] E. Richardson, M. Sela, and R. Kimmel. 3d face reconstruction by learning from synthetic data. In 3DV, pages 460–469. IEEE, 2016.
[130] E. Richardson, M. Sela, R. Or-El, and R. Kimmel. Learning detailed face reconstruction from a single image. In CVPR, pages 5553–5562. IEEE, 2017.
[131] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. Imagenet large scale visual recognition challenge. International Journal of Computer Vision, 115(3):211–252, 2015.
[132] S. Sankaranarayanan, A. Alavi, C. D. Castillo, and R. Chellappa. Triplet probabilistic embedding for face verification and clustering. In BTAS, pages 1–8. IEEE, 2016.
[133] S. Sankaranarayanan, A. Alavi, and R. Chellappa. Triplet similarity embedding for face verification. arXiv preprint arXiv:1602.03418, 2016.
[134] A. Savran, N. Aly¨uz, H. Dibeklio˘glu, O. C¸ eliktutan, B. G¨okberk, B. Sankur, and L. Akarun. Bosphorus database for 3d face analysis. In European Workshop on Biometrics and Identity Management, pages 47–56. Springer, 2008.
[135] S. Saxena and J. Verbeek. Heterogeneous face recognition with cnns. In ECCV, pages 483–491. Springer, 2016.
[136] A. Scheenstra, A. Ruifrok, and R. C. Veltkamp. A survey of 3d face recognition methods. In International Conference on Audio-and Videobased Biometric Person Authentication, pages 891–899. Springer, 2005.
[137] F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A unified embedding for face recognition and clustering. In CVPR, pages 815– 823, 2015.
[138] S. Sengupta, J.-C. Chen, C. Castillo, V. M. Patel, R. Chellappa, and D. W. Jacobs. Frontal to profile face verification in the wild. In WACV, pages 1–9. IEEE, 2016.
[139] M. Sharif, S. Bhagavatula, L. Bauer, and M. K. Reiter. Accessorize to a crime: Real and stealthy attacks on state-of-the-art face recognition. In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security, pages 1528–1540. ACM, 2016.
[140] M. Sharif, S. Bhagavatula, L. Bauer, and M. K. Reiter. Adversarial generative nets: Neural network attacks on state-of-the-art face recognition. arXiv preprint arXiv:1801.00349, 2017.
[141] A. Shrivastava, T. Pfister, O. Tuzel, J. Susskind, W. Wang, and R. Webb. Learning from simulated and unsupervised images through adversarial training. In CVPR, volume 3, page 6, 2017.
[142] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.
[143] K. Sohn, S. Liu, G. Zhong, X. Yu, M.-H. Yang, and M. Chandraker. Unsupervised domain adaptation for face recognition in unlabeled videos. arXiv preprint arXiv:1708.02191, 2017.
[144] L. Song, M. Zhang, X. Wu, and R. He. Adversarial discriminative heterogeneous face recognition. arXiv preprint arXiv:1709.03675, 2017.
[145] Y. Sun, Y. Chen, X. Wang, and X. Tang. Deep learning face representation by joint identification-verification. In NIPS, pages 1988– 1996, 2014.
[146] Y. Sun, D. Liang, X. Wang, and X. Tang. Deepid3: Face recognition with very deep neural networks. arXiv preprint arXiv:1502.00873, 2015.
[147] Y. Sun, L. Ren, Z. Wei, B. Liu, Y. Zhai, and S. Liu. A weakly supervised method for makeup-invariant face verification. Pattern Recognition, 66:153–159, 2017.
[148] Y. Sun, X. Wang, and X. Tang. Hybrid deep learning for face verification. In ICCV, pages 1489–1496. IEEE, 2013.
[149] Y. Sun, X. Wang, and X. Tang. Deep learning face representation from predicting 10,000 classes. In CVPR, pages 1891–1898, 2014.
[150] Y. Sun, X. Wang, and X. Tang. Sparsifying neural network connections for face recognition. In CVPR, pages 4856–4864, 2016.
[151] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, A. Rabinovich, et al. Going deeper with convolutions. Cvpr, 2015.
[152] O. Tadmor, Y. Wexler, T. Rosenwein, S. Shalev-Shwartz, and A. Shashua. Learning a metric embedding for face recognition using the multibatch method. arXiv preprint arXiv:1605.07270, 2016.
[153] Y. Taigman, M. Yang, M. Ranzato, and L. Wolf. Deepface: Closing the gap to human-level performance in face verification. In CVPR, pages 1701–1708, 2014.
[154] A. Tewari, M. Zollh¨ofer, H. Kim, P. Garrido, F. Bernard, P. Perez, and C. Theobalt. Mofa: Model-based deep convolutional face autoencoder for unsupervised monocular reconstruction. In ICCV, volume 2, 2017.
[155] A. T. Tran, T. Hassner, I. Masi, and G. Medioni. Regressing robust and discriminative 3d morphable models with a very deep neural network. In CVPR, pages 1493–1502. IEEE, 2017.
[156] L. Tran, X. Yin, and X. Liu. Disentangled representation learning gan for pose-invariant face recognition. In CVPR, volume 3, page 7, 2017.
[157] M. Turk and A. Pentland. Eigenfaces for recognition. Journal of cognitive neuroscience, 3(1):71–86, 1991.
[158] E. Tzeng, J. Hoffman, K. Saenko, and T. Darrell. Adversarial discriminative domain adaptation. In CVPR, volume 1, page 4, 2017.
[159] C. Wang, X. Lan, and X. Zhang. How to train triplet networks with 100k identities? In ICCV workshops, volume 00, pages 1907–1915, 2017.
[160] D. Wang, C. Otto, and A. K. Jain. Face search at scale: 80 million gallery. arXiv preprint arXiv:1507.07242, 2015.
[161] D. Wang, C. Otto, and A. K. Jain. Face search at scale. IEEE transactions on pattern analysis and machine intelligence, 39(6):1122– 1136, 2017.
[162] F. Wang, W. Liu, H. Liu, and J. Cheng. Additive margin softmax for face verification. arXiv preprint arXiv:1801.05599, 2018.
[163] F. Wang, X. Xiang, J. Cheng, and A. L. Yuille. Normface: l 2 hypersphere embedding for face verification. arXiv preprint arXiv:1704.06369, 2017.
[164] H. Wang, Y. Wang, Z. Zhou, X. Ji, Z. Li, D. Gong, J. Zhou, and W. Liu. Cosface: Large margin cosine loss for deep face recognition. arXiv preprint arXiv:1801.09414, 2018.
[165] L. Wang, V. A. Sindagi, and V. M. Patel. High-quality facial photosketch synthesis using multi-adversarial networks. arXiv preprint arXiv:1710.10182, 2017.
[166] M. Wang and W. Deng. Deep visual domain adaptation: A survey. arXiv preprint arXiv:1802.03601, 2018.
[167] W. Wang, Z. Cui, H. Chang, S. Shan, and X. Chen. Deeply coupled auto-encoder networks for cross-view classification. arXiv preprint arXiv:1402.2031, 2014.
[168] X. Wang and X. Tang. Face photo-sketch synthesis and recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 31(11):1955–1967, 2009.
[169] X. Wang, Y. Zhou, D. Kong, J. Currey, D. Li, and J. Zhou. Unleash the black magic in age: a multi-task deep neural network approach for cross-age face verification. In FG 2017, pages 596–603. IEEE, 2017.
[170] W. D. Weilong Chai and H. Shen. Cross-generating gan for facial identity preserving. In FG, pages 130–134. IEEE, 2018.
[171] K. Q. Weinberger and L. K. Saul. Distance metric learning for large margin nearest neighbor classification. Journal of Machine Learning Research, 10(Feb):207–244, 2009.
[172] Y. Wen, Z. Li, and Y. Qiao. Latent factor guided convolutional neural networks for age-invariant face recognition. In CVPR, pages 4893– 4901, 2016.
[173] Y. Wen, K. Zhang, Z. Li, and Y. Qiao. A discriminative feature learning approach for deep face recognition. In ECCV, pages 499–515. Springer, 2016.
[174] C. Whitelam, K. Allen, J. Cheney, P. Grother, E. Taborsky, A. Blanton, B. Maze, J. Adams, T. Miller, and N. Kalka. Iarpa janus benchmark-b face dataset. In CVPR Workshops, pages 592–600, 2017.
[175] L. Wolf, T. Hassner, and I. Maoz. Face recognition in unconstrained videos with matched background similarity. In CVPR, pages 529–534. IEEE, 2011.
[176] J. Wright, A. Yang, A. Ganesh, S. Sastry, and Y. Ma. Robust Face Recognition via Sparse Representation. IEEE Trans. Pattern Anal. Machine Intell., 31(2):210–227, 2009.
[177] W.-S. T. WST. Deeply learned face representations are sparse, selective, and robust. perception, 31:411–438, 2008.
[178] W. Wu, M. Kan, X. Liu, Y. Yang, S. Shan, and X. Chen. Recursive spatial transformer (rest) for alignment-free face recognition. In CVPR, pages 3772–3780, 2017.
[179] X. Wu, R. He, and Z. Sun. A lightened cnn for deep face representation. In CVPR, volume 4, 2015.
[180] X. Wu, R. He, Z. Sun, and T. Tan. A light cnn for deep face representation with noisy labels. arXiv preprint arXiv:1511.02683, 2015.
[181] X. Wu, L. Song, R. He, and T. Tan. Coupled deep learning for heterogeneous face recognition. arXiv preprint arXiv:1704.02450, 2017.
[182] Y. Wu, H. Liu, and Y. Fu. Low-shot face recognition with hybrid classifiers. In CVPR, pages 1933–1939, 2017.
[183] Y. Wu, H. Liu, J. Li, and Y. Fu. Deep face recognition with center invariant loss. In Proceedings of the on Thematic Workshops of ACM Multimedia 2017, pages 408–414. ACM, 2017.
[184] S. Xie and Z. Tu. Holistically-nested edge detection. In ICCV, pages 1395–1403, 2015.
[185] E. P. Xing, M. I. Jordan, S. J. Russell, and A. Y. Ng. Distance metric learning with application to clustering with side-information. In NIPS, pages 521–528, 2003.
[186] C. Xiong, X. Zhao, D. Tang, K. Jayashree, S. Yan, and T.-K. Kim. Conditional convolutional neural network for modality-aware face recognition. In ICCV, pages 3667–3675. IEEE, 2015.
[187] L. Xiong, J. Karlekar, J. Zhao, J. Feng, S. Pranata, and S. Shen. A good practice towards top performance of face recognition: Transferred deep feature fusion. arXiv preprint arXiv:1704.00438, 2017.
[188] Y. Xu, Y. Cheng, J. Zhao, Z. Wang, L. Xiong, K. Jayashree, H. Tamura, T. Kagaya, S. Pranata, S. Shen, J. Feng, and J. Xing. High performance large scale face recognition with multi-cognition softmax and feature retrieval. In ICCV workshops, volume 00, pages 1898–1906, 2017.
[189] Y. Xu, S. Shen, J. Feng, J. Xing, Y. Cheng, J. Zhao, Z. Wang, L. Xiong, K. Jayashree, and H. Tamura. High performance large scale face recognition with multi-cognition softmax and feature retrieval. In ICCV Workshop, pages 1898–1906, 2017.
[190] Z. Xu, S. Li, and W. Deng. Learning temporal features using lstm-cnn architecture for face anti-spoofing. In ACPR, pages 141–145. IEEE, 2015.
[191] S. Yan, D. Xu, B. Zhang, and H.-J. Zhang. Graph embedding: A general framework for dimensionality reduction. Computer Vision and Pattern Recognition, IEEE Computer Society Conference on, 2:830–837, 2005.
[192] H. Yang, D. Huang, Y. Wang, and A. K. Jain. Learning face age progression: A pyramid architecture of gans. arXiv preprint arXiv:1711.10352, 2017.
[193] H. Yang and I. Patras. Mirror, mirror on the wall, tell me, is the error small? In CVPR, pages 4685–4693, 2015.
[194] J. Yang, Z. Lei, and S. Z. Li. Learn convolutional neural network for face anti-spoofing. arXiv preprint arXiv:1408.5601, 2014.
[195] J. Yang, S. E. Reed, M.-H. Yang, and H. Lee. Weakly-supervised disentangling with recurrent transformations for 3d view synthesis. In NIPS, pages 1099–1107, 2015.
[196] J. Yang, P. Ren, D. Chen, F. Wen, H. Li, and G. Hua. Neural aggregation network for video face recognition. arXiv preprint arXiv:1603.05474, 2016.
[197] M. Yang, X. Wang, G. Zeng, and L. Shen. Joint and collaborative representation with local adaptive convolution feature for face recognition with single sample per person. Pattern Recognition, 66(C):117–128, 2016.
[198] D. Yi, Z. Lei, S. Liao, and S. Z. Li. Learning face representation from scratch. arXiv preprint arXiv:1411.7923, 2014.
[199] Z. Yi, H. Zhang, P. Tan, and M. Gong. Dualgan: Unsupervised dual learning for image-to-image translation. arXiv preprint, 2017.
[200] J. H. Yichen Qian, Weihong Deng. Task specific networks for identity and face variation. In FG, pages 271–277. IEEE, 2018.
[201] J. Yim, H. Jung, B. Yoo, C. Choi, D. Park, and J. Kim. Rotating your face using multi-task deep neural network. In CVPR, pages 676–684, 2015.
[202] L. Yin, X. Wei, Y. Sun, J. Wang, and M. J. Rosato. A 3d facial expression database for facial behavior research. In FGR, pages 211– 216. IEEE, 2006.
[203] X. Yin and X. Liu. Multi-task convolutional neural network for poseinvariant face recognition. TIP, 2017.
[204] X. Yin, X. Yu, K. Sohn, X. Liu, and M. Chandraker. Towards largepose face frontalization in the wild. arXiv preprint arXiv:1704.06244, 2017.
[205] X. Yin, X. Yu, K. Sohn, X. Liu, and M. Chandraker. Feature transfer learning for deep face recognition with long-tail data. arXiv preprint arXiv:1803.09014, 2018.
[206] J. Y. X. W. X. T. Yujun Shen, Ping Luo. Faceid-gan: Learning a symmetry three-player gan for identity-preserving face synthesis. In CVPR, pages 416–422. IEEE, 2018.
[207] E. Zangeneh, M. Rahmati, and Y. Mohsenzadeh. Low resolution face recognition using a two-branch deep convolutional neural network architecture. arXiv preprint arXiv:1706.06247, 2017.
[208] T. Y. J. H. Zhanfu An, Weihong Deng. Deep transfer network with 3d morphable models for face recognition. In FG, pages 416–422. IEEE, 2018.
[209] D. Zhang, L. Lin, T. Chen, X. Wu, W. Tan, and E. Izquierdo. Contentadaptive sketch portrait generation by decompositional representation learning. IEEE Transactions on Image Processing, 26(1):328–339, 2017.
[210] J. Zhang, Z. Hou, Z. Wu, Y. Chen, and W. Li. Research of 3d face recognition algorithm based on deep learning stacked denoising autoencoder theory. In ICCSN, pages 663–667. IEEE, 2016.
[211] L. Zhang, L. Lin, X. Wu, S. Ding, and L. Zhang. End-to-end photosketch generation via fully convolutional representation learning. In Proceedings of the 5th ACM on International Conference on Multimedia Retrieval, pages 627–634. ACM, 2015.
[212] L. Zhang, M. Yang, and X. Feng. Sparse representation or collaborative representation: Which helps face recognition? In ICCV, 2011.
[213] W. Zhang, S. Shan,W. Gao, X. Chen, and H. Zhang. Local gabor binary pattern histogram sequence (lgbphs): A novel non-statistical model for face representation and recognition. In ICCV, volume 1, pages 786– 791. IEEE, 2005.
[214] W. Zhang, X. Wang, and X. Tang. Coupled information-theoretic encoding for face photo-sketch recognition. In CVPR, pages 513–520. IEEE, 2011.
[215] X. Zhang, Z. Fang, Y. Wen, Z. Li, and Y. Qiao. Range loss for deep face recognition with long-tail. arXiv preprint arXiv:1611.08976, 2016.
[216] X. Zhang and Y. Gao. Face recognition across pose: A review. Pattern Recognition, 42(11):2876–2896, 2009.
[217] X. Zhang, X. Zhou, M. Lin, and J. Sun. Shufflenet: An extremely efficient convolutional neural network for mobile devices. arXiv preprint arXiv:1707.01083, 2017.
[218] Y. Zhang, M. Shao, E. K. Wong, and Y. Fu. Random faces guided sparse many-to-one encoder for pose-invariant face recognition. In ICCV, pages 2416–2423. IEEE, 2013.
[219] Z. Zhang, J. Yan, S. Liu, Z. Lei, D. Yi, and S. Z. Li. A face antispoofing database with diverse attacks. In ICB, pages 26–31, 2012.
[220] J. Zhao, J. Han, and L. Shao. Unconstrained face recognition using a set-to-set distance measure on deep learned features. IEEE Transactions on Circuits and Systems for Video Technology, 2017.
[221] J. Zhao, L. Xiong, P. K. Jayashree, J. Li, F. Zhao, Z. Wang, P. S. Pranata, P. S. Shen, S. Yan, and J. Feng. Dual-agent gans for photorealistic and identity preserving profile face synthesis. In NIPS, pages 65–75, 2017.
[222] W. Zhao, R. Chellappa, P. J. Phillips, and A. Rosenfeld. Face recognition: A literature survey. ACM computing surveys (CSUR), 35(4):399–458, 2003.
[223] T. Zheng and W. Deng. Cross-pose lfw: A database for studying crosspose face recognition in unconstrained environments. Technical Report 18-01, Beijing University of Posts and Telecommunications, February 2018.
[224] T. Zheng, W. Deng, and J. Hu. Age estimation guided convolutional neural network for age-invariant face recognition. In CVPR Workshops, pages 1–9, 2017.
[225] T. Zheng, W. Deng, and J. Hu. Cross-age lfw: A database for studying cross-age face recognition in unconstrained environments. arXiv preprint arXiv:1708.08197, 2017.
[226] L. Z. Zhengming Ding, Yandong Guo and Y. Fu. One-shot face recognition via generative learning. In FG, pages 1–7. IEEE, 2018.
[227] Y. Zhong, J. Chen, and B. Huang. Toward end-to-end face recognition through alignment learning. IEEE signal processing letters, 24(8):1213–1217, 2017.
[228] E. Zhou, Z. Cao, and Q. Yin. Naive-deep face recognition: Touching the limit of lfw benchmark or not? arXiv preprint arXiv:1501.04690, 2015.
[229] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. arXiv preprint arXiv:1703.10593, 2017.
[230] Z. Zhu, P. Luo, X. Wang, and X. Tang. Deep learning identitypreserving face space. In ICCV, pages 113–120. IEEE, 2013.
[231] Z. Zhu, P. Luo, X. Wang, and X. Tang. Multi-view perceptron: a deep model for learning face identity and view representations. In NIPS, pages 217–225, 2014.
[232] Z. Zhu, P. Luo, X. Wang, and X. Tang. Recover canonical-view faces in the wild with deep neural networks. arXiv preprint arXiv:1404.3543, 2014.
[233] W. D. H. S. Zimeng Luo, Jiani Hu. Deep unsupervised domain adaptation for face recognition. In FG, pages 453–457. IEEE, 2018.
[234] X. Zou, J. Kittler, and K. Messer. Illumination invariant face recognition: A survey. In BTAS, pages 1–8. IEEE, 2007.
[235] S. Zulqarnain Gilani and A. Mian. Learning from millions of 3d scans for large-scale 3d face recognition. arXiv preprint arXiv:1711.05942, 2017.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM