Facebook提出DensePose數據集和網絡架構:可實現實時的人體姿態估計


https://baijiahao.baidu.com/s?id=1591987712899539583

選自arXiv

作者:Rza Alp Güler, Natalia Neverova, Iasonas Kokkinos

機器之心編譯

參與:Panda

 

實現從 2D 圖像到 3D 表面的對應在很多方面都有極具價值的應用前景。近日,FAIR 發布了一篇研究論文,介紹了他們通過人工方式標注的圖像到表面密集對應數據集 DensePose-COCO 以及基於此訓練的 DensePose-RCNN 架構,得到了一個能實時地得到高准確度結果的系統。該研究發布后得到了廣泛的關注,機器之心在此對該論文進行了摘要介紹,更多詳情請參閱原論文和項目網站。

 

論文地址:https://arxiv.org/abs/1802.00434項目網站:http://densepose.org

 
03:49

 

本研究的目標是通過建立從人體的 2D 圖像到基於表面的 3D 表征的密集對應(dense correspondence)來進一步推進人類對圖像的理解。我們可以認為這個任務涉及到一些其它問題,比如物體檢測、姿態估計、作為特例或前提的部位和實例分割。在圖形處理、增強現實或人機交互等不只需要平面關鍵特征位置標記的問題中,這一任務的解決將能實現很多應用,並且還能助力實現通用型的基於 3D 的物體理解。

 

建立從圖像到基於表面的模型的密集對應的任務已經在可使用深度傳感器的設置中基本得到了解決,比如在 [41] 的 Vitruvian 流形中、指標回歸森林 [33] 或最近 [44] 提出的密集點雲對應。相對而言,我們的情況則是考慮使用單張 RGB 圖像作為輸入,然后我們基於此來構建表面點和圖像像素之間的對應。

 

最近也有一些其它研究想要以無監督的方式恢復 RGB 圖像配對 [3] 或集合 [48,10] 之間的密集對應。最近,[42] 使用了同變性原理(equivariance principle)來將圖像集對齊到一個共同坐標系,同時也遵循了分組圖像對齊的一般思想,比如 [23,21]。

 

盡管這些研究都針對的是一般類別,但我們的研究關注的可以說是最重要的視覺類別——人類。對於人類而言,可以通過使用參數可變形表面模型(parametric deformable surface model)來簡化這一任務,比如 [2] 的 Skinned Multi-Person Linear(SMPL)模型或最近的 [14] 中通過精心控制 3D 表面獲取而得到的 Adam 模型。對於圖像到表面映射的任務,[2] 中的作者提出了一種兩階段方法:首先通過一個 CNN 檢測人類關鍵特征位置,然后通過迭代式最小化為該圖像擬合一個參數可變形表面模型。與我們的研究同時進行的 [20] 對 [2] 的方法進行了發展,使之能以端到端的方式工作,其在用於恢復 3D 相機姿態和低維身體參數化的深度網絡中整合了一個模塊——迭代式重投射誤差最小化(iterative reprojection error minimization)。

 

我們的方法與這些研究都不一樣,我們采用了一種全面的監督學習方法並收集了人體的圖像與詳細准確的參數表面模型 [27] 之間的真實對應數據:我們沒有在測試時間使用 SMPL 模型,而是將其用作在訓練階段定義我們的問題的一種方法。我們的方法可以被理解成是 [26, 1, 19, 7, 40, 18, 28] 中用於人類的標准的下一步延伸工作。Fashionista [46]、PASCAL-Parts [6] 和 Look-Into-People (LIP) [12] 數據集中已經提供了人體部位分割掩碼;這些可以被看作是提供了圖像到表面對應的粗糙版本,其中沒有連續的坐標,而是可以預測離散的部位標簽。在表面層面的監督直到最近才被 [43] 引入合成圖像,同時 [22] 中一個包含 8515 張圖像的數據集標注上了 3D 模型到圖像的關鍵點和半自動擬合。本研究沒有損傷我們的訓練集的范圍和真實性,而是引入了一種全新的標注流程,讓我們可以為 COCO 數據集的 5 萬張圖像收集真實的對應,進而得到了我們新的 DensePose-COCO 數據集。

 

我們的工作在思想上最接近於近期的 DenseReg 框架 [13],其中訓練的 CNN 能成功構建自然場景中的 3D 模型和圖像之間的密集對應關系。那項工作主要關注的是人臉,並且只在姿態變化適中的數據集上評估了他們的結果。但是,由於人體具有更高的復雜度和靈活性,同時姿態也存在更大的變化,所以我們這里還面臨着新的難題。我們采用了合適的架構設計來解決這些難題,詳見第 3 節;該架構相比於 DenseReg 類型的全卷積架構有顯著的提升。通過將我們的方法與近期的 Mask-RCNN 系統 [15] 相結合,我們表明通過鑒別式方法訓練的模型能實時地為涉及數十人的復雜場景恢復高准確度的對應場:我們的系統在一個 GTX 1080 GPU 上能以每秒 20-26 幀的速度處理 240×320 圖像或以每秒 4-5 幀的速度處理 800×1100 圖像。

 

我們的貢獻可以總結為三點。首先,如第 2 節所述,我們通過收集 SMPL 模型 [27] 和 COCO 數據集中的人物外觀之間的密集對應而為該任務引入了第一個人工收集的真實數據集。這是通過在標注過程中使用一種利用了 3D 表面信息的全新標注流程實現的。

 

第二,如第 3 節所述,通過在任何圖像像素對人體表面坐標進行回歸,我們使用所得到的數據集訓練了可以得到自然環境中密集對應的基於 CNN 的系統。我們實驗了依賴於 Deeplab [4] 的全卷積架構和依賴於 Mask-RCNN [15] 的基於區域的系統,並觀察到了基於區域的模型相比於全卷積網絡的優越性。我們還考慮了我們的方法的級聯變體,並在已有的架構上實現了進一步提升。

 

我們探索了利用我們構建的真實信息的不同方法。我們的監督信號是在每個訓練樣本中隨機選擇的圖像像素子集上定義的。我們使用了這些稀疏對應來訓練一個「教師(teacher)」網絡,其可以「修補(inpaint)」圖像其余區域的監督信號。不管是與稀疏點相比還是與其它任何已有的數據集相比,使用這種修復后的信號能夠得到明顯更好的表現,第 4 節通過實驗證明了這一點。

 

我們的實驗表明密集的人體姿態估計在很大程度上是可以實現的,但仍還有改善的空間。我們使用一些定性結果和表明該方法發展潛力的方向而對我們的論文進行了總結。我們將通過我們的項目網站公開提供代碼和數據:http://densepose.org。

 

COCO-DensePose 數據集

 

圖 1:密集姿態估計的目標是將 RGB 圖像上的所有人類像素映射成 3D 的人體表面。我們引入了一個大規模真實數據集 DensePose-COCO,其中包含人工標注的 5 萬張 COCO 圖像的圖像到表面對應數據;我們還訓練了 DensePose-RCNN,能以每秒多幀的速度在每個人體區域內密集回歸特定部位的 UV 坐標。左圖:圖像及通過 DensePose-RCNN 所得到的回歸后的對應。中圖:DensePose-COCO 數據集標注。右圖:身體表面的分割和 UV 參數化。

 

圖 2:通過讓標注者將圖像分割成形義區域然后再在任何渲染的部位圖像上為每個被采樣的點定位其對應的表面點,我們標注了圖像和 3D 表面模型的密集對應關系。紅色叉號表示當前被標注的點。渲染后視圖的表面坐標在 3D 模型上定位收集到的 2D 點。

 

圖 3:用於收集每個部位的對應標注的用戶界面:我們向標注者提供了人體部位的 6 個預渲染的視角,這樣整個部位表面都是可見的。一旦標注了目標點,該點就會同時顯示在所有渲染過的圖像上。

 

圖 4:標注的可視化:圖像(左)、收集到的點的 U 值(中)和 V 值(右)

 

學習密集人體姿態估計

 

圖 7:DensePose-RCNN 架構:我們使用了區域提議生成和特征池化的級聯,之后跟着一個全卷積網絡,用於密集地預測離散部位標簽和連續表面坐標。

 

圖 8:交叉級聯架構:圖 7 中 RoIAlign 模塊的輸出送入 DensePose 網絡以及用於其它任務(掩碼、關鍵點)的輔助網絡。一旦從所有任務獲得了第一階段的預測,它們就將被組合起來送入每個分支的第二階段細化。

 

圖 9:我們首先使用我們的稀疏的、人工收集的監督信號訓練一個「教師網絡」,然后使用該網絡來「修補」用於訓練我們的基於區域的系統的密集監督信號。

 

實驗

 

圖 10:SMPLify [2] 的基於模型的單人姿態估計和我們的基於 FCN 的結果的定性比較,包含了具有遮擋(「All images」)和不含遮擋(「Full-body images」)的情況。

 

圖 11:使用不同類型的監督信號進行訓練的單人表現:DensePose 得到了比其它數據集顯著更准確的結果。DensePose在訓練和測試時都使用了 figure-ground oracle

 

圖 12:多人密集對應標注的結果。這里我們在包含多人的真實 COCO 數據集圖像上比較了我們提出的 DensePose-RCNN 系統與全卷積方法的表現,其中這些圖像在尺寸、姿態和背景上具有較高的多樣性。

 

圖 14:用於紋理遷移的定性結果:在上面一行中所提供的紋理根據估計的對應映射成了圖像像素。完整視頻請訪問:http://densepose.org。

 

論文:DensePose:自然環境中的密集人體姿態估計(DensePose: Dense Human Pose Estimation In The Wild)

 

 

摘要:在本研究中,我們構建了人體的 RGB 圖像與基於表面的表征之間的密集對應,我們將這個任務稱為密集人體姿態估計。首先,我們通過引入一種有效的標注流程而收集了 COCO 數據集中 5 萬張人類外觀的密集對應。然后我們使用我們的數據集訓練了能夠在自然環境中(in the wild)得到密集對應的基於 CNN 系統,也就是說環境中存在背景、遮擋和尺度變化等情況。通過訓練一個可以填補缺失真實值的「修補」網絡,我們提升了我們的訓練集的有效性;並且相比於過去所能實現的最好結果有明顯的提升。我們使用全卷積網絡和基於區域的模型進行了實驗,並觀察到了后者的優越性;我們通過級聯進一步提升了准確度,得到了一個能實時地得到高准確度結果的系統。我們的項目網站還提供了補充材料和視頻:http: //densepose.org。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM