DensePose: Dense Human Pose Estimation In The Wild(理解)


0 - 背景

  Facebook AI Research(FAIR)開源了一項將2D的RGB圖像的所有人體像素實時映射到3D模型的技術(DensePose)。支持戶外和穿着寬松衣服的對象識別,支持多人同時識別,並且實時性良好。

  本研究的目的是通過建立從人體的2D圖像到基於表面的3D表征的密集對應(dense correspondence)來進一步推進機器對圖像的理解。該任務涉及到其他一些問題,如物體檢測、姿態估計、作為特例或前提的部位和實例分割。在圖形處理、增強現實或者人機交互等不只需要平面關鍵特征位置標記的問題中,這一任務的解決將能夠實現很多應用,並還能助力實現通用型的基於3D的物體理解。

1 - 貢獻

  • 通過收集SMPL模型和COCO數據集中的人體外觀之間的密對應對應而為該任務引入第一個人工收集的真實數據集(利用3D表面信息的全新標注流程實現)
  • 通過在任何圖像像素對人體表面坐標進行回歸,我們使用所得到的數據集訓練了可以得到自然環境中密集對應的基於CNN的系統(全卷積網絡、mask R-CNN、級聯)
  • 我們探索了利用我們構建的真實信息的不同方法,我們使用了在每個訓練樣本中隨機選擇的圖像像素子集上定義的稀疏監督信號來訓練一個教師網絡(“teacher”),可以修補圖像其余區域的監督信號

       

 

2 - 思路

  采用一種全面的監督學習方法並收集了人體的圖像與詳細准確的參數表面模型之間的真實對應數據。

2.1 - 標注數據集

  對於一般的姿態識別(骨骼追蹤),能夠識別出一二十個點便可以構成一個人體姿態,但如果要構造出一個平滑的3D模型,則需要更多的關鍵點,DensePose需要336個(24個部位,每個部位14個點)。

  同時要求注釋者在標記的時候要標出被衣物掩蓋住的部位,比如寬松的裙子。

            

  上述工作進行之后,研究人員對每一個展開部位區域進行采樣,會獲得6個不同視角的標記圖,提供二維坐標圖使標記者更直觀的判斷哪個標記是正確的。

       

  最后將平面重新組合成3D模型,進行最后一步校准。這樣下來,可以以高效准確的方式獲得准確標記的數據集。各部位錯誤率如下,可以看到在軀干、背部和臀部存在較大誤差。

        

2.2 - 模型

2.2.1 - Fully-convolutional dense pose regression

2.2.2 - Region-based Dense Pose Regression

        

        

2.3 - 效果

3 - 參考資料

https://mp.ofweek.com/3dprint/a045673622216

http://www.sohu.com/a/222047678_129720

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM