6-PACK: Category-level 6D Pose Tracker with Anchor-Based Keypoints


簡介
作者提出了一種基於RGB-D的深度學習方法6PACK,能夠實時的跟蹤已知類別物體。通過學習用少量的三維關鍵點來簡潔地表示一個物體,基於這些關鍵點,通過關鍵點匹配來估計物體在幀與幀之間的運動。這些關鍵點使用無監督端到端學習來實現有效的跟蹤。實驗表明該方法顯著優於現有方法,並支持機器人執行簡單的基於視覺的閉環操作任務。
  問題的提出
在機器人抓取任務中,實時跟蹤物體6D位姿的能力影響抓取任務的實施。現有的6D跟蹤方法大部分是基於物體的三維模型進行的,有較高的准確性和魯棒性。然而在現實環境中,很難獲得物體的三維模型,所以作者提出開發一種類別級模型,能夠跟蹤特定類別從未見過的物體。
創新點
1、這種方法不需要已知物體的三維模型。相反,它通過新的anchor機制,類似於2D對象檢測中使用的proposals方法,來避免定義和估計絕對6D位姿。
2、這些anchor為生成三維關鍵點提供了基礎。與以往需要手動標注關鍵點的方法不同,提出了一種無監督學習方法,該方法可以發現最優的三維關鍵點集進行跟蹤。
3、這些關鍵點用於簡潔的表示物體,可以有效地估計相鄰兩幀之間位姿的差異。這種基於關鍵點的表示方法可以實現魯棒的實時6D姿態跟蹤。
核心思想
作者提出的模型使用RGB-D圖像,基於之前位姿周圍采樣的anchors(紅點),來魯棒地檢測和跟蹤一組基於3D類別的關鍵點(黃色)。然后利用連續兩幀中預測的關鍵點,通過最小二乘優化求解點集對齊的問題,計算出6D物體的位姿變化。
問題的定義
將類別級物體6D位姿跟蹤定義為:物體在連續時間t−1和t之間的位姿變化問題。初始位姿是針對相同類別的所有目標物體定義的標准框架相對於相機框架的平移和旋轉。例如,對於類別“相機”,將框架放置在物體的質心處,x軸指向相機物鏡的方向,y軸指向上方。
將3D關鍵點定義為:在整個時間序列中幾何和語義上一致的點。給定兩個連續的輸入幀,需要從兩幀中預測匹配的關鍵點列表。基於剛體假設的基礎,利用最小二乘優化來解決點集對齊問題,從而得到位姿的變化∆p。
模型
首先在預測物體實例的周圍剪裁一個放大的體積,將其歸一化為一個單元;在體積塊上生成anchor網格;之后使用DenseFusion計算M個點的幾何與顏色融合特征;根據距離將它們平均池化成N個anchor特征;注意力機制網絡使用anchor特征來選擇最接近質心的點;用質心生成一組有序的關鍵點。將這種關鍵點生成方法應用在前一幀和當前幀,得到兩組有序的關鍵點來計算幀間的位姿變化。
6-PACK算法在預測位姿周圍生成anchor網格的過程中使用了注意力機制。每個點用RGB-D點單獨特征的距離加權和來表示體積。使用anchor信息在新的RGB-D框架中找到物體的粗略質心,並指導對其周圍關鍵點的后續搜索,這比在無約束的三維空間中搜索關鍵點效率更高。
實驗結果
作者采用的數據集是NOCS-REAL275,包含六個類別。通過對比三個模型的baseline來評估作者的方法。
NOCS:類別級物體6D位姿估計sota。
ICP:Open3D中中實現的標准點對面ICP算法。
KeypointNet:直接在三維空間中生成3D關鍵點。
1)6-PACK指標5°5cm比NOCS高出15%以上,指標IoU25高出12%。說明與使用所有輸入像素作為關鍵點的NOCS相比,6-PACK能夠檢測出最適合類別級6D跟蹤的3D關鍵點。實驗結果如下圖所示:
其中,前兩列為NOCS和6-PACK的定性對比,后兩列為關鍵點匹配的結果。
2)6-PACK所有指標都優於KeypointNet,KeypointNet經常跟丟。作者的方法避免了丟失物體的軌跡(IoU25>94%),基於anchor的注意力機制提高了整體的跟蹤性能
3)為了檢驗不同方法的魯棒性和穩定性,作者計算了沒有前x幀的平均性能。這樣就能測量出初始位姿對性能的影響(接近初始位姿的幀很容易跟蹤)。如下圖,除了NOCS之外,所有方法的性能都有所下降,因為NOCS是位姿估計方法,而不是位姿跟蹤方法。在整個過程中,6-PACK的性能比NOCS高出10%以上,並在初始幀100后停止下降。
4)作者在機器人上進行了實時測試,超過60%的試驗中,成功地跟蹤了目標(目標在可視范圍內),而沒有丟失。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM