----------------------------------------------------------
----------------------------------------------------------
網絡結構論文摘要
之前大部分的論文都是基於深度圖像的,這篇論文提出了一個從RGB圖像中估計三維節點的方法,並提出了一個大規模的3D手部姿態的RGB數據集。
論文框架
論文一共用了三個網絡結構進行手部節點的位置預測,首先用一個網絡提取手部區域,並重新resize手部區域的大小,然后用一個網絡定位2D手部關節點的位置,在根據2D的節點位置和先驗知識恢復出3D節點位置。
相關工作
論文主要借鑒了 2D Human Pose Estimation, 3D Human Pose Estimation 和 Hand Pose Estimation的主要方法, 感覺之后視野應該要放開闊一些,熟悉 Pose Estimation 的各種方法, 重點掌握嘗試並應用 Hand Pose Estimation 的各種方法。
現在主要存在的問題有兩個:一個是還是依賴於深度圖像,另一個是和數據集相關度比較大, 對數據集相關的手勢預測的較為准確。
Hand pose representation
這一部分主要是為了解決大小手,坐標等問題。之前也考慮過這些問題,但是確實沒有系統地區解決這個問題,看論文里面主要考慮了兩個方面。
第一個方面是手的scale 問題,即使是分割出手的部分再進行resize,手的大小也會對預測結果產生影響,所以論文里面利用食指的第一根手骨的長度對手節點位置進行正則化。其次,絕對坐標系的使用會給預測帶來困難,所以論文里采用了相對坐標系,以手掌節點的位置作為坐標原點對各個節點坐標進行平移。
HandSegNet
前兩部分的網絡借鑒了Wei論文中的網絡結構,后者在論文中將2D人體檢測問題轉化為人體中心點分布的熱圖估計問題,而本文則是將2D手部檢測問題轉化為一個分割問題,最后得到了Hand mask,再對手部區域提取和正則化(Q1:沒有預測得到各個節點的位置,如何進行正則化)

實現細節:
網絡結構,(Conv+ReLu)+MaxPool+Bilinear Upsampling(上采樣了四倍)
Loss 函數, standrad softmax + cross entropy loss
Learning rate 初始化為 1e-5,2W次迭代后變為1e-6,3W次迭代后變為1e-7
做了簡單的數據増廣,random color hue augmentation of 0:1 (待查)
PoseNet
這部分是對手部的每一個節點預測出一個二維的熱圖。也是采用 encoder-decoder的結構。
實現細節:

網絡結構,(Conv+ReLu)+MaxPool,最后的預測利用了17,24和31層的feature map
Loss 函數,L2 Loss
需要注意的是對於Ground Truth的處理,利用了均值為關節點位置,方差為25個像素的高斯分布。而對於不可見的節點,所有的概率值設為0。
對於數據crop這部分,采用了兩個方法進行,一個是對bounding box的中心加了0均值,方差為10的高斯噪聲,另一個是對節點熱圖加了0均值,方差為1.5的高斯噪聲。訓練過程初始學習率1e-4,每一萬次縮小十倍。
PosePrior
這部分應該是這篇論文的核心。在得到了21個節點的分布熱圖后,如何推出3D位置信息是需要考慮的問題。當然,手部區域是多視角的,所以有必要先對手部區域的視角進行一下限制,從而使預測過程對視角有一定的不變性。論文中采用了坐標變換,利用兩部分對視角的坐標變換進行估計,從而使得某一個特點的節點的z坐標為0(這一塊兒的坐標變換目的不是很理解,只是感覺為了使模型的坐標得到統一)。然后對左右手坐標進行了區分(不知道是否會有影響)。所以這部分網絡同時有了兩個任務,一個是預測節點位置信息,一個是估計視角角度,這兩個任務用了接近相同的網絡框架。再將預測結果進行融合得到最后的坐標。


實現細節:

這部分的網絡結構很簡單。
Loss 函數,
+
整體網絡結構:

相關拓展實驗
數據集:RGB with 3D pose annotation
Stereo Hand Pose Tracking Benchmark (15000+3000) , Dexter , New DataSet(41258+2728)
1. HandSegNet性能比較

第一行是不用HandSegNet,直接利用Gt提取區域,可以看出來帶來的影響還是比較大的。不同數據及也會有不同的影響。
2. 學習到的先驗知識的作用
這部分的實驗做的很有意思,由於第三個網絡是根據2D熱圖恢復3D節點位置信息,可以認為通過訓練,網絡學到了一定的先驗知識,現在我們可以考慮一下這種先驗

第二行代表了沒有熱圖信息輸入,此時存在着一定的先驗分布,隨着節點熱圖信息的加入,可以看出手指節點位置的預測越來越接近真實值,和貝葉斯估計有一定的相似性。
3.和既利用depth圖像也利用RGB圖像進行對比
只利用Depth圖像進行scale的放縮和平移,利用RGB訓練,並和二者都用的模型效果進行對比。實驗效果如圖

這個實驗的設計感覺有些奇怪,對於其他模型而言,主要還是為了估計depth image,而RGB難免效果不好,只在RGB上進行測試並利用了depth的真實數據,很難說是真的效果好。
