作者:諾丁漢大學的Adrian Bulat & Georgios Tzimiropoulos
Github:https://github.com/1adrianb/face-alignment
2D-FAN:https://www.adrianbulat.com/downloads/FaceAlignment/2D-FAN-300W.t7
3D-FAN:https://www.adrianbulat.com/downloads/FaceAlignment/3D-FAN.t7
2D-to-3D FAN:https://www.adrianbulat.com/downloads/FaceAlignment/2D-to-3D-FAN.tar.gz
3D-FAN-depth:https://www.adrianbulat.com/downloads/FaceAlignment/3D-FAN-depth
摘要
在現存2D和3D人臉對齊數據集上,本文研究的這個非常深的神經網絡達到接近飽和性能的程度。本文主要做了5個貢獻:(1)結合最先進的人臉特征點定位(landmark localization)架構和最先進的殘差模塊(residual block),首次構建了一個非常強大的基准,在一個超大2D人臉特征點數據集(facial landmark dataset)上訓練,並在所有其他人臉特征點數據集上進行評估。(2)我們構建一個將2D特征點標注轉換為3D標注,並所有現存數據集進行統一,構建迄今最大、最具有挑戰性的3D人臉特征點數據集LS3D-W(約230000張圖像)。(3)然后,訓練一個神經網絡來進行3D人臉對齊(face alignment),並在新的LS3D-W數據集上進行評估。(4)本文進一步研究影響人臉對齊性能的所有“傳統”因素,例如大姿態( large pose),初始化和分辨率,並引入一個“新的”因素,即網絡的大小。(5)本文的測試結果顯示2D和3D人臉對齊網絡都實現了非常高的性能,足以證明非常可能接近所使用的數據集的飽和性能。訓練和測試代碼以及數據集可以從 https://www.adrianbulat.com/face-alignment/%20下載。
引言
隨着深度學習和大規模注釋數據集的發展,近年的工作已經顯示出即使在最具挑戰性的計算機視覺任務上也達到前所未有的准確性。在這項工作中,本文專注於特征點定位(landmark localization),尤其是人臉特征點定位,即:人臉對齊(face alignment),“人臉對齊”也可以說是過去幾十年來計算機視覺中的研究熱點。
目前,關於使用卷積神經網絡(CNN)的特征點定位的研究,大大推動了其他領域的界限,例如人體姿態估計,但目前尚不清楚在人臉對齊方面取得怎樣的成果。
歷史上,根據任務的不同,有不同的技術已被用於特征點定位。例如,在神經網絡出現之前,人體姿態估計的工作主要是基於圖結構(Pictorial Structure)和各種復雜的擴展(Extension),因為它們能夠模擬大的外觀變化, 適應廣泛的人類姿勢。這些方法雖然沒有被證明能夠實現用於人臉對齊任務的級聯回歸方法(Cascaded Regression Method)表現出的高精確度,但另一方面,級聯回歸方法的性能在初始化不准確的情況下,或有大量的自我封閉的特征點或大的平面內旋轉時會變差。
最近,基於熱圖回歸(Heatmap Regression)的完全卷積神經網絡架構徹底改變了人體姿態估計,即使對於最具挑戰性的數據集也得到非常高的准確度。由於它們對端到端訓練和人工工程的需求很少,這種方法可以很容易地應用於人臉對齊問題。
使用2D-3D方法構建最大數據集(LS3D-W)
作者表示,按照這個路徑,“我們的主要貢獻是構建和訓練這樣一個強大的人臉對齊網絡,並首次調查在所有現有的2D人臉對齊數據集和新引入的大型3D數據集上距離達到接近飽和性能(saturating performance)有多遠”。
Contributions(具體的貢獻):
1. 首次構建了一個非常強大的基准(baseline),結合state-of-the-art的特征點定位架構和state-of-the-art的 殘差模塊(residual block),並在非常大的綜合擴展的2D人臉特征點數據集訓練。然后,我們對所有其他2D數據集(約230000張圖像)進行評估,分析真正解決2D人臉對齊問題還有多遠。
2. 為了解決3D人臉對齊數據集少的問題,本文進一步提出了一種將2D注釋轉換為3D注釋的2D特征點CNN方法,並使用它創建LS3D-W數據集,這是目前最大、最具挑戰性的3D人臉特征點數據集(約230000張圖像),是通過將現存的所有數據集統一起來得到的。
3. 然后,本文訓練了一個3D人臉對齊網絡,並在新的大型3D人臉特征點數據集進行評估,實際分析距離解決3D人臉對齊問題尚有多遠。
4. 本文進一步研究影響人臉對齊性能的所有“傳統”因素,例如大姿態(large pose),初始化和分辨率,並引入“新的”因素,即網絡的大小。
5. 本文測試結果顯示,2D和3D人臉對齊網絡都實現了非常高准確度的性能,這可能是接近了所使用的數據集的飽和性能。
2D-FAN結構:
通過堆疊四個HG(HourGlass)構建的人臉對齊網絡(Face Alignment Network, FAN),其中所有的 bottleneck blocks(圖中矩形塊)被替換為新的分層、並行和多尺度block。
方法及數據:2D、3D標注及2D-3D轉換都接近飽和性能
文章首先構建人臉對齊網絡“FAN”(Face Alignment Network),然后基於FAN,構建2D-to-3D-FAN,也即將給定圖像2D面部標注轉換為3D的網絡。文章表示,據測試所知,在大規模2D/3D人臉對齊實驗中訓練且評估FAN這樣強大的網絡,還尚屬首次。
他們基於人體姿態估計最先進的架構之一HourGlass(HG)來構建FAN,並且將HG原有的模塊bottleneck block替換為一種新的、分層並行多尺度結構(由其他研究人員提出)。
2D-to-3D-FAN網絡架構:基於人體姿態估計架構HourGlass,輸入是RGB圖像和2D面部地標,輸出是對應的3D面部地標。
2D-FAN標記結果
3D-FAN標記結果
下面是跟現有方法(紅色)的對比,這樣看更能明顯地看出新方法的精度:
除了構建FAN,作者的目標還包括創建首個超大規模的3D面部地標數據集。目前3D面部地標的數據還十分稀少,因此也讓這項工作貢獻頗大。鑒於2D-FAN卓越的效果,作者決定使用2D-to-3D-FAN來生成3D面部地標數據集。
但是,這也帶來了一個問題,那就是評估2D轉3D數據很難。現有的最大同類數據集是AFLW2000-3D。於是,作者先使用2D-FAN,生成2D面部地標標注,再使用2D-to-3D-FAN,將2D數據轉換為3D面部地標,最后將生成的3D數據與AFLW2000-3D進行比較。
結果發現,兩者確實有差異,下圖展示了差異最大的8幅圖像標記結果(白色是論文結果):
作者表示,造成差異的最大原因是,以前的方法半自動標記管道對一些復雜姿態沒有生成准確的結果。於是,在改進數據后,他們將AFLW2000-3D納入現有數據集,創建了LS3D-W(Large Scale 3D Faces in-the-Wild dataset),一共包含了大約230,000幅標記圖像,也是迄今最大的3D人臉對齊數據集。
作者之后從各個方面評估了LS3D-W數據集的性能。研究結果表明,他們的網絡已經達到了數據集的“飽和性能”,在構圖、分辨率,初始化以及網絡參數數量方面表現出了超高的彈性(resilience)。更多信息參見論文。
作者表示,雖然他們還沒有在這些數據集中去探索一些罕見姿態的效果,但只要有足夠多的數據,他們確信網絡也能夠表現得一樣好。
作者:南君
出處:http://www.cnblogs.com/molakejin/
本文版權歸作者和博客園共有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接,否則保留追究法律責任的權利。