Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression
該文獻采用一個新型的VRN網絡對任意的面部姿勢和表情的2D圖片進行3D面部重建,並繞過3D可變模型的構造(在訓練期間)和擬合(在測試期間)。
volumetric representation
文獻中是通過CNN回歸來預測3D面部的頂點,直接對所有的3D面部點進行預測的話不利於VRN的學習。該文獻中將mesh轉換為voxel,變成一個192*192*200的矩陣。這樣就比較適合CNN。我們先看看mesh和voxel的區別:下面的第一張圖是mesh,可以看出就是一個曲面;第二張是voxel,可以看出人臉是由很多個立方體構成的。


作者給出了voxel轉成obj的腳本,運行出來是這樣的:

這是一個封閉的曲面。這就有個問題了,由CNN預測出來的3D人臉的頂點是不固定的,也就是我們還需要進行一步對齊,將一個固定頂點的模板對齊到CNN預測出來的3D人臉。 mesh轉voxel可以用binvox這個工具。
Volumetric Regression Networks(VRN)
該網絡由兩個Hourglass Networks構成(HN網絡),兩個NH的結構類似,第二個NH對第一個NH的輸出進行優化。
[...這里有一些插圖待處理..]
論文提出了三種方案,第一種是直接從圖片重建,第二種是加入了人臉特征點,第三種是多任務(重建+人臉特征點預測)。效果最好的是第二種方法。
Reference:
[1] https://blog.csdn.net/linmingan/article/details/79359218
