【CVPR 2022】 論文閱讀:Ray3D: ray-based 3D human pose estimation for monocular absolute 3D localization


論文地址:https://arxiv.org/abs/2203.11471

Github:https://github.com/YxZhxn/Ray3D

單位:Aibee、北京工商大學

摘要

在本文中,我們提出了一種新的基於單目光線的3D(Ray3D)絕對人體姿勢估計方法。從單目二維位姿輸入精確且可推廣的絕對三維人體位姿估計是一個不適定問題。為了解決這個問題,我們將輸入從像素空間轉換為3D標准化光線。這種轉換使我們的方法對相機固有參數的變化具有魯棒性。為了處理原始相機外部參數的變化,Ray3D明確地將相機外部參數作為輸入,並聯合建模3D姿勢光線和相機外部參數之間的分布。這種新穎的網絡設計是實現Ray3D方法卓越通用性的關鍵。為了全面了解相機內部和外部參數變化對絕對3D關鍵點定位精度的影響,我們在三個單人3D benchmark和一個合成benchmark上進行了深入系統的實驗。這些實驗表明,我們的方法明顯優於現有的先進模型。

1&2 Inrtroduction&Related work

這部分還是只寫一下作者的出發點,以及研究貢獻。

相機內參和外參的介紹:https://zhuanlan.zhihu.com/p/144307108

在相機成像的過程中,三維世界的物體被投影到像素坐標上,是一個三維到二維的過程。人體2D關鍵點的像素位置(即在像素坐標系下的位置)由世界坐標系下人體大小、相機外部參數、相機內部參數和3D位置共同決定。這些因素為3D姿態估計帶來了模糊性。如Figure1所示,(a)中身體大小和到攝影機的距離都放大兩倍,則投影在相機上的二維關鍵點位置保持不變,同理(b)中焦距和距離都擴大兩倍,在相機上得到的投影位置也保持不變。這樣一來,便可得知在世界坐標系下,不同參數的組合可能得到相同的二維投影,如此一來,僅僅是簡單的地學習從2D像素位置映射到3D世界位置的模型可能是錯誤的。

為了解決這些模糊性,人們提出了許多單目3D人體估計方法,主要分為兩種:(1)lifting methods;(2)image based methods。lifting methods 講2D人體姿勢作為輸入,將2D姿勢提升為3D姿勢。一些提升方法根據圖像分辨率和相機主點對輸入進行標准化。雖然這些歸一化方案在一定程度上提高了泛化能力,但由於攝像機固有參數的變化,它們無法完全解決模糊問題。(本質上還是因為圖像到2D pose這個過程丟失了深度信息)。image based methods基於身體大小的先驗信息估計3D 根位置。還有些方法,基於圖像的人體深度估計,進行絕對根關鍵點定位。這些基於學習的深度估計方法存在的問題是缺乏足夠的訓練數據,並且存在視點變化。

為了更有效的解決這個問題,作者提出了Ray3D。首先,為了有一個不變的內在參數表示,作者將像素空間中的二維關鍵點轉換為規范化三維空間中的三維光線。通過這種簡單的設計,Ray3D方法不受相機內在參數變化的影響,實現了穩定的性能。受Videopose和RIE的啟發,作者使用時間卷積來融合連續幀中的3D光線,以進一步解決遮擋帶來的模糊性,並提高准確性。這種時間融合機制穩定了輸出,並生成更精確的3D位置。其次,作者將攝像機的外部參數聯合嵌入到網絡中,相機外部參數包含精確的3D人體姿勢估計的基本信息。作者認為,利用相機外部參數是解決人體部位尺寸模糊的唯一方法。

主要貢獻

(1)將輸入空間從二維像素空間轉換為規范化坐標系中的三維光線。這種簡單的設計有效地規范化了攝像機固有參數變化以及攝像機俯仰角變化帶來的變化。

(2)提出了一種新穎而簡單的網絡,該網絡利用攝像機外部參數學習攝像機嵌入,並聯合建模攝像機外部參數和三維光線的分布。

(3)提供了一個全面和系統的基准,現有的3D方法在魯棒性方面對攝像機姿態的變化,以及跨數據集的泛化。

(4)在三個真實基准數據集和一個合成數據集上的實驗清楚地證明了Ray3D方法的優勢

3. Proposed Method

Figure2為整體框架圖,為了消除固有參數變化的影響,在相機坐標系(CCS)中的二維關鍵點被轉換為三維光線。為了處理攝像機俯仰角的變化,作者進一步將這些3D光線轉換為標准化坐標系(NCS)。同樣,真實3D姿勢也會轉換為NCS。這樣,模型的輸入和輸出都將對齊到同一坐標系中。時序關鍵點運動信息有助於解決由遮擋引起的3D姿勢估計模糊。在這之后,作者在時序上融合連續幀中的3D光線,並對相對姿勢光線進行編碼,以捕獲運動信息。具體來說,作者使用MLP網絡來學習攝像機姿勢表示的緊湊嵌入。該攝像機嵌入隨后與潛在的3D射線特征連接,用於姿勢預測。這種新穎的設計極大地提高了模型對攝像機姿勢和身體比例變化的魯棒性。

3.1 Input preprocessing

Intrinsic parameter decoupling 

使用深度神經網絡,基於提升的三維姿態估計方法能夠提升預測的二維關鍵點{pi}Ji=1到3D關鍵點{PiC}Ji=1,pi=[xi,yi]表示人的第i個關節在輸入圖像坐標系中的位置,PCi=[XCi,YCi,ZCi]代表相機坐標系(CCS)中的相應關節點。J表示關節點數量。為了實現攝像機固有參數變化的不變性,對{pi}Ji=1執行以下轉換:

得到3D rays定義如上圖,cx和cy表示相機中心點,fx和fy表示焦距,Piray表示一條射線,從相機的光心指向圖像平面中的關鍵點i

Extrinsic parameter decoupling with the Normalized Coordinate System (NCS)

將關鍵點在世界坐標系、相機坐標系和標准化坐標系下的坐標分別定義為PW、PC和PN。通過精確校准,可以獲取相機外部信息,包括旋轉矩陣RW2C和平移向量TW2C,PW和PC之間的轉換如下:

這部分在內參外參介紹部分有詳細介紹。

在本文中,作者的目標是在中預測世界坐標系下的絕對三維人體姿勢,相機在3D世界中的姿勢可以通過其3D位置、俯仰、偏航和滾動角度來確定。俯仰角(pitch)/theta 描述相機光軸與地平面之間的角度。假設相機偏航和滾動角度接近0,根據水平平移,相機俯仰值和攝影機高度可以唯一確定攝影機的姿勢。為了明確地對俯仰進行編碼,以實現精確的姿勢估計,作者建立了NCS,如Figure3所示。首先,CCS沿x軸旋轉以消除俯仰角,然后,坐標系沿z軸平移到地平面。

很容易的,可以計算PC和PN之間的旋轉矩陣和平移向量:

根據等式2,3,4,可得到:

根據式7,可得到從相機坐標系下的{Piray}Ji= 1轉換到標准坐標系下的3D rays:{P^iray}Ji= 1,根據式8,可將世界坐標系下的真實三維關鍵點轉換為標准化坐標系下的真值{PiN}Ji= 1。如此一來,在同一種坐標系下,直接降低了訓練難度和增加了模型魯棒性。

3.2 Lifting network

Absolute pose estimation

估計三維絕對人體姿勢的任務由兩個子問題組成,根位置估計(即估計人體中心的位置)和根相對姿勢估計(即每個關鍵點相對於中心的偏移),作者分別使用軌跡網絡(trajectory network)和姿勢網絡(pose network)共同學習解決這兩個子問題,將這兩個網絡的輸出相加,以生成絕對3D姿勢。

時序運動信息提高了模型對身體遮擋的魯棒性。作者采用RIE體系結構作為主干網絡,用於根相對姿勢網絡和軌跡網絡。如Figure4所示,RIE網絡通過位置和時間信息得到加強,輸入關鍵點的相對位置被編碼為幀內的位置信息,當前幀的2D姿勢與相鄰幀的2D姿勢之間的差異被視為時間信息。這種增強輸入被分為5組(軀干、左臂、右臂、左腿和右腿),用於局部特征學習。此外,從當前幀中提取全局特征,以保持整體姿態的一致性。特征融合模塊將所有這些特征集合起來,用於三維姿態估計。利用這種結構,作者用固有不變的標准化3D射線代替普通的2D人體關鍵點,作為姿勢網絡和軌跡網絡的輸入,以解決模糊問題。

Camera embedding

作者認為,在WCS中,攝像機外部參數對絕對姿態估計至關重要,並建議通過一個多層感知器學習獨立的攝像機嵌入,明確利用外部參數/theta和h作為輸入。具體地說,攝像機嵌入模塊由兩個完全連接的層構成,然后是批量標准化、校正線性單元和輟學dropout。如Figure4所示,在相對姿勢預測和軌跡網絡中,相機嵌入與時間融合的潛在3D射線特征相連接。因此,這兩個網絡都利用相機的外部參數進行魯棒和精確的姿態估計。

4. Experiments and results

數據集:略

評價指標:

每關節平均位置誤差(MPJPE)用於評估CCS下的根相對姿態估計結果。

Absolute MPJPE(Abs MPJPE),計算WCS中預測和GT姿態之間的差異。

根位置誤差平均值(MRPE)用於評估根關節的軌跡預測。

4.2 Implementation Details

對於Ray3D方法,作者采用相機嵌入的大小設置為64,初始學習率為0.001,Adam優化器采用0.99的指數學習率衰減系數。在訓練和測試中都采用了水平翻轉增強。對於H36M數據集,采用CPN姿勢檢測器輸出和真實2D姿勢作為輸入。至於Humaneva-I和3DHP,只使用真實2D姿勢。

4.3. Evaluation on public benchmarks

這部分是常規的對比實驗,直接看表即可。

4.4. Evaluation on synthetic dataset

這部分,作者在3DHP進行了訓練,在H36M, Humaneva-I and 3DHP上進行測試,得到結果:

Intrinsic generalization 為了驗證改變內部/固有參數方法的魯棒性,作者在固定分辨率下改變攝像機的焦距。如Figure 5 (a)和(b)所示,焦距變化會影響VideoPose、PoseFormer、RIE分別在MPJPE和MRPE指標下,會發生不同程度的改變。而作者提出的Ray3D則不會。

Extrinsic generalization 為了衡量外部參數泛化的影響,作者分別改變了相機姿態的旋轉、俯仰角和平移距離。平移是通過相機和拍攝對象之間的歐幾里德距離來測量的。此外,作者還設計了一種新的根關節定位基線方法,具體來說,使用H36M受試者的根關節平均高度(即93.95cm)來估計根關節的高度。使用此高度假設,沿其3D射線定位根關節,作者將這種方法稱為Ray Fixed Root Height(RFRH)。

實驗結果主要通過Figure 6 和 Figure 7進行對比:

Person scale generalization 為了驗證對人尺度模糊性的魯棒性,作者改變了H36M中人的骨骼長度(為原來的0.6-1.1倍)。實驗結果如圖6(d)和7(d)所示,當體型較小時,所有比較方法的准確性都會顯著降低。例如,對於最小的身型,PoseFormer、RIE、Videopose的MRPE高達4000mm,甚至高於RFRH,Ray3D的MRPE增加到800mm,仍然比基線好得多。下面這個圖的橫軸表示人體四肢的總長度。

4.5. Ablation Studies

4.6 Discussion

在三個真實基准和合成數據集上,我們的Ray3D方法在可推廣性方面顯著優於基線方法。這清楚地展示了Ray3D方法的健壯性。然而,如Figure7(d)所示,當人體大小變化很大時,Ray3D的性能會下降。這主要是因為所有的訓練身體姿勢都是成人的。同時,我們的方法假設主體在地平面上。如果受試者長時間離開地面(例如爬梯子),模型可能會失敗。此外,需要提供校准的相機參數,這限制了Ray3D的使用情況。精確的3D姿勢估計可能會被誤用在監控應用中,骨架配置估計可以幫助識別人。

5. Conclusion

在本文中,作者提出了一種創新的單目絕對三維人體姿態估計方法,名為Ray3D。這種方法通過一系列新穎的設計逐漸解決了固有的模糊性:從2D關鍵點到3D規范化光線的轉換,三維射線的時間融合,其中包括相機外部參數的嵌入。因此,在三個真實基准和一個合成基准上,Ray3D顯著優於SOTA方法。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM