Mask R-CNN翻譯


摘要

  我們提出了一個概念上簡單、靈活和通用的對象實例分割框架。我們的方法高效地檢測圖像中的目標,同時為每個實例生成高質量的分割掩碼。這種稱為Mask R-CNN的方法通過添加一個用於預測目標掩碼的分支來擴展Faster R-CNN,該分支與現有的用於邊框識別的分支並行。Mask R-CNN訓練簡單,只在Faster R-CNN上增加一個小的開銷,運行速度為5fps。此外,Mask R-CNN很容易泛化到其它任務,例如,允許我們在同一框架中估計人體姿勢。我們在COCO挑戰“套件”全部三個“軌道”中展示了最佳結果,包括實例分割,邊框目標檢測和人員關鍵點檢測。無需任何技巧,Mask R-CNN在每個任務中勝過所有現有的單模型條目,包括COCO 2016挑戰的獲勝者。我們希望該簡單有效的方法將成為一個堅實的基線,並有助於簡化未來在實例級識別方面的研究。代碼將可用。

1. 介紹

  視覺社區在一段時間內迅速改進了目標檢測和語義分割結果。在很大程度上,這些進步是由強大的基線系統驅動的,例如分別用於目標檢測和語義分割的Fast/Faster R-CNN[9, 29]和全卷積網絡(FCN)【24】框架。這些方法在概念上是直觀的,並提供靈活性和穩健性,以及快速的訓練和推理時間。我們在這項工作中的目標是為實例分割開發一個可比較的支持框架。

  實例分割具有挑戰性,因為它需要正確檢測圖像中的所有對象,同時也精確地分割每個實例。因此,它結合了來自目標檢測的經典計算機視覺任務的元素,其目標是對各個目標進行分類並使用邊界框對每個目標進行定位,以及語義分割,其目標是將每個像素分類為固定的一組類別而不區分的目標實例。鑒於此,人們可能期望需要一種復雜的方法來獲得良好的結果。然而,我們表明,一個令人驚訝的簡單,靈活,快速的系統可以超越先前的先進實例分割結果。

圖1:用於實例分割的Mask R-CNN框架。

  我們的方法稱為Mask R-CNN,通過在每個感興趣區域(ROI)上添加一個分支來預測分割掩碼,並與現有分支進行分類和邊界框回歸並行,從而擴展Faster R-CNN(圖1)。掩碼分支是應用於每個RoI的小FCN,以像素到像素的方式預測分割掩碼。在給定R-CNN框架的情況下,Mask R-CNN很容易實現和訓練,這有助於廣泛的靈活架構設計。另外,掩碼分支只會增加一個小的計算開銷,從而實現快速系統和快速實驗。

  原則上,Mask R-CNN是Faster R-CNN的直觀擴展,但正確構建掩碼分支對於獲得良好的結果至關重要。最重要的是,Faster R-CNN並非設計用於網絡輸入和輸出之間的像素到像素對齊。這一點在RoIPool(參與實例的事實上的核心操作)如何為特征提取執行粗略空間量化方面最為明顯。為了解決這個錯位,我們提出了一個簡單的,無量化的層,稱為RoIAlign,忠實地保留了精確的空間位置。盡管看似微小的變化,但RoIAlign的影響很大:它將掩碼精度提高了10%和50%,在更嚴格的定位衡量下顯示處更大的收益。其次,我們發現分離掩碼和類預測是必不可少的:我們獨立地預測每個類的二元掩碼,沒有類之間的競爭,並依賴於網絡的RoI分類分支來預測類別。相比之下,FCN通常執行逐像素多類別分類,其結合分割和分類,並且基於我們的實例分割實驗效果不佳。

  在沒有花里胡哨的情況下,Mask R-CNN超越了COCO實例分割任務的所有先前的最先進single-model結果,包括來自2016年比賽獲勝者的精心設計的參賽作品。作為副產品,我們的方法也擅長COCO目標檢測任務。在消融實驗中,我們評估了多個基本實例,這使我們能夠證明其穩健性和分析核心因素的影響。

  我們的模型可以在GPU上以每幀大約200ms的速度運行,而COCO上的訓練在每個8-GPU機器上需要一到兩天。我們相信快速訓練和測試速度以及框架的靈活性和准確性將有利於並簡化未來對實例分割的研究。

  最后,我們通過對COCO關鍵點數據集的人體姿態估計的任務展示了我們框架的通用性。通過將每個關鍵點視為one-hot二元掩碼,通過最小的修改,可以應用Mask R-CNN來檢測特定於實例的姿勢。沒有技巧,Mask R-CNN超越了2016年COCO關鍵點競賽的冠軍,同時以5fps的速度運行。因此,Mask R-CNN可以更廣泛地被視為用於實例級識別的靈活框架,並且可以容易地擴展到更復雜的任務。

  我們將發布代碼以促進未來的研究。

2. 相關工作

R-CNN:基於區域的CNN(R-CNN)邊框目標檢測方法關注可管理數量的目標區域,並在每個RoI上獨立地求卷積網絡的值。R-CNN被擴展到允許在特征圖的RoI上使用RoIPool,從而實現更快的速度和更高的准確性。Faster R-CNN通過使用區域建議網絡(RPN)學習注意機制來推進這個發展。Faster R-CNN對於許多后續改進而言是靈活且穩健的,並且是幾個基准測試中的當前領先框架。

Instance Segmentation:在R-CNN的有效性推動下,許多實例分割方法都基於分割提議。早期的方法采用自下而上的分割【33,2】。DeepMask【27】及其后續工作【28,5】學習提出分割候選,然后由Fast R-CNN分類。在這些方法中,分割先於識別,這是緩慢且不太准確的。同樣,Dai等人【7】提出了一個復雜的多階段級聯,它可以從邊界框提議中預測分割提議,然后進行分類。相反,我們的方法基於掩碼和類標簽的並行預測,這更簡單,更靈活。

  最近,Lei等人將【5】中的分割建議系統和【8】中的目標檢測系統結合起來,用於“全卷積實例分割”(FCIS)。【5,8,21】中的常見想法是全卷積地預測一組位置敏感的輸出通道。這些通道同時處理目標類,框和掩碼,使系統快速。但FCIS在重疊實例上表現出系統誤差並產生虛假邊緣(圖5),表明它受到分割實例的基本困難的挑戰。

圖2:在COCO測試集上的Mask R-CNN結果。結果基於ResNet-101,實現了35.7的掩碼AP並且運行速度為5fps。掩碼用彩色表示,邊框、類別、置信度也做了相應的展示。

3. Mask R-CNN

  Mask R-CNN在概念上很簡單:Faster R-CNN為每個候選對象提出兩個輸出,一個類標簽和一個邊框偏移;為此,我們添加了第三個輸出掩碼的分支。因此,Mask R-CNN是一種自然而直觀的想法。但是額外的掩碼輸出與類和框輸出不同,需要提取對象的更精細的空間布局。接下來,我們介紹Mask R-CNN的關鍵元素,包括像素到像素的對齊,這是Fast/Faster R-CNN的主要缺失部分。

Faster R-CNN:我們首先簡要回顧一下Faster R-CNN檢測器【29】。Faster R-CNN包括兩個階段。第一階段稱為區域建議網絡(RPN),提出候選對象邊框。第二階段,實質上是Fast R-CNN,從每個候選框中使用RoIPool提取特征,並執行分類和邊界框回歸。可以共享兩個階段使用的特征,以便更快地推理。我們向讀者推薦【17】,以便在Faster R-CNN和其他框架之間進行最新,全面的比較。

Mask R-CNN:Mask R-CNN采用相同的兩階段步驟,具有相同的第一階段(即RPN)。在第二階段,與預測類和框偏移並行,Mask R-CNN還為每個RoI輸出一個二元掩碼。這與最近的系統形成對比,它們的分類取決於掩碼預測(例如【27,7,21】)。我們的方法遵循Fast R-CNN【9】的精神,並行地應用了邊界框分類和回歸(結果很大程度上簡化了原始R-CNN的多階段流水線【10】)。

  形式上,在訓練期間,我們將每個采樣RoI的多任務損失定義為$L=L_{cls}+L_{box}+L_{mask}$。分類損失$L_{cls}$和邊界框$L_{box}$與【9】中的定義一致。掩碼分支對於每個RoI具有$km^{2}$維輸出,其編碼分辨率為$m$x$m$的$K$個二元掩碼,分別對應$K$個類。為此我們為每個像素應用sigmoid,並將$L_{mask}$定義為平均二元交叉熵損失。對於與真值類$k$相關聯的RoI,$L_{mask}$僅在第$k$個掩碼上定義(其它掩碼輸出不會導致損失)。

  我們對$L_{mask}$的定義允許網絡為每個類生成掩碼,而不需要在類之間進行競爭;我們依靠專用的分類分支來預測用於選擇輸出掩碼的類標簽。這解耦了掩碼和類預測。這與將FCN【24】應用於語義分割時的常規做法不同,后者通常使用每像素softmax和多項交叉熵損失。在這種情況下,各類的掩碼競爭;在我們的例子中,有它們沒有的每像素sigmoid和二元損失。我們通過實驗表明,該公式是良好實例分割結果的關鍵。

Mask Representation:掩碼對輸入目標的空間布局進行編碼。因此,與不可避免地通過全連接(fc)層折疊成短輸出向量的類標簽或框偏移不同,提取掩碼的空間結構可以通過由卷積提供的像素到像素的對應自然地解決。

  具體來說,我們使用FCN為每個RoI預測一個$m$x$m$的掩碼。這允許掩碼分支中的每個圖層保持明確地的$m$x$m$的對象空間布局,而不會將其折疊為缺少空間維度的向量表示。與先前使用fc層進行掩碼預測的方法不同,我們的全卷積表示需要更少的參數,並且如實驗所示更准確。

  這種像素到像素的行為要求我們的RoI特征(它們本身就是小特征映射)能夠很好地對齊,以忠實地保持明確的每個像素的空間對應關系。這促使我們開發以下RoIAlign層,該層在掩碼預測中起關鍵作用。

RoIAlign:RoIPool【9】是用於從每個RoI中提取小特征圖(例如$7$x$7$)的標准操作。RoIPool首先將浮點數的RoI量化為特征圖的離散粒度,然后將該量化的RoI細分為自身量化的空間塊,最后聚合每個塊覆蓋的特征值(通常通過最大池化)。例如,通過計算$[x/16]$在連續坐標上執行量化,其中16是特征圖步幅並且[·]是舍入;同樣,當分成塊(例如,$7$x$7$)時執行量化。這些量化引起RoI和提取的特征之間的不對齊。雖然這可能不會影響分類,這對小的平移很魯棒,但它對預測像素級精確的掩碼有很大的負面影響。

  為了解決這個問題,我們提出一個$RoIAlign$層來消除RoIPool的苛刻量化,正確地將提取的特征與輸入對齊。我們提出的改變很簡單:我們避免對RoI邊界或塊的任何量化(例如,我們使用$x/16$而不是$[x/16]$)。我們使用雙線性插值【18】來計算每個RoI塊中四個常規采樣位置的輸入特征的准確值,並匯總結果(使用最大值或平均值)。

  我們在4.2中展示了RoIAlign帶來的巨大改進。我們還比較了【7】中提出的RoIWarp操作。與RoIAlign不同,RoIWarp忽略了對齊問題,並在【7】實現了像RoIPool一樣的量化RoI。因此,即使RoIWarp也采用【18】推動的雙線性重采樣,它的性能與RoIPool依舊相當,如實驗所示(表2c中的更多細節),證明了對齊的關鍵作用。

Network Architecture:為了證明我們方法的通用性,我們將Mask R-CNN與多種框架建立聯系。為清楚起見,我們這樣區分:(i)用於整個圖像上的特征提取為卷積$backbone$架構,(ii)用於邊界框識別(分類和回歸)的網絡為$head$和單獨應用於每個RoI的掩碼預測。

  我們使用命名法$network-depth-features$來表示$backbone$架構。我們評估深度為50或101層的ResNet【15】和ResNeXt【35】。帶有ResNets【15】的Faster R-CNN的原始實現從我們稱為C4的第4階段的最終卷積層中提取了特征。例如,ResNet-50的這個backbone用ResNet-50-C4表示。這是【15,7,17,31】中通用的選擇 。我們還探索了Lin等【22】最近提出的另一個更有效的backbone,稱為特征金字塔(FPN)。FPN使用具有橫向連接的自上而下架構,從單一尺度輸入構建網內特征金字塔。具有FPN backbone的Faster R-CNN根據其尺度從特征金字塔的不同級別提取RoI特征,但是方法其余類似於vanilla ResNet。使用ResNet-FPN backbone用於特征提取的Mask R-CNN在精度和速度方面獲得極佳的提升。更多關於FPN的細節,請參閱【22】。

  對於網絡$head$我們密切關注先前工作中提出的架構,我們在其中添加一個全卷積掩碼預測分支。具體地說,我們從ResNet【15】和FPN【22】論文中擴展了Faster R-CNN box heads。Figure 3展示了細節。ResNet-C4 backbone的head包括了ResNet第5階段(即9層‘res5’【15】),這是計算密集型。對於FPN,backbone已經包含res5,因此允許使用更少濾波器的更高效的head。

  我們注意到我們的掩碼分支有一個簡單的結構。更復雜的設計有可能改善性能,但這不是這項工作的重點。

3.1 實現細節

  我們根據現有的Fast/Faster R-CNN工作【9,29,22】設置超參數。雖然這些決策在原始論文【9,29,22】中是用於目標檢測,但是我們發現我們的實例分割系統對他們是魯棒的。

Training:如在Fast R-CNN中,如果RoI和真值框的IoU至少為0.5時被視為正,否則為負。掩碼損失$L_{mask}$僅限於正的RoIs。掩碼目標是RoI和其相關真值掩碼之間的交集。

  我們采用以圖像為中心的訓練方法【9】。調整圖像大小以使其比例(最短的邊)是800像素【22】。每個小批量中采用每個GPU上2個圖像,每個圖像有$N$個采樣RoI,正負比為1:3【9】。C4的backbone(如【9,29】所示)的$N$是64,FPN的是512(如【22】所示)。我們在8個GPU(有效的小批量大小為16)上進行160k次迭代,學習率為0.02,在120k次迭代時減少10倍。我們使用0.0001的權重衰減和0.9的動量。

  和【22】一樣,RPN錨點跨越5個尺度和3個縱橫比。為了方便消融,RPN單獨訓練並且不與Mask R-CNN共享特征,除非另有說明。對於本文中的每個entry,RPN和Mask R-CNN有同樣的backbones,因此他們是可共享的。

圖3:Head Architecture:擴展兩個現有的Faster R-CNN頭部。左/右兩圖分別展示了ResNet C4和FPN的頭部,在哪加上一個掩碼分支。數字表示空間分辨率和通道數。箭頭表示卷積、反卷積或者全連接,這個可以通過上下文推斷出來(卷積保持空間維度,而反卷積增加)。所有的卷積是都3×3,除了輸出卷積是1×1,反卷積是步長為2的2×2操作,在隱藏層使用ReLU。左:'res5'表示ResNet的第5階段,為了簡單才這么選擇的以便於在7×7的RoI上使用步長為1首次卷積。右:'×4'表示四個連續的卷積堆。

Inference:在測試時,C4 backbone建議的數量是300(和【29】一樣),FPN為1000(和【22】一樣)。我們在這些提議上運行框預測分支,然后是非極大值抑制【11】。然后將掩碼分支應用於最高得分100個檢測框。雖然這與訓練中的並行計算不同,但它加速了推理並提高了准確率(由於使用了更少更准確的RoIs)。掩碼分支可以為每個RoI預測$K$個掩碼,但是我們僅使用第$k$個掩碼,其中$k$是分類分支的預測類。然后將$mxm$浮點數掩碼輸出調整為RoI尺寸,並在閾值0.5出進行二值化。

  請注意,由於我們僅計算前100個檢測框,因此Mask R-CNN在它的Faster R-CNN對應部分添加一點小開銷(例如,在典型模型上約為 20%)。

4. 實驗:實例分割

  我們將Mask R-CNN與最先進的算法進行徹底的對比,並進行全面的消融實驗。我們使用COCO數據集【23】進行所有實驗。我們報告標准COCO指標包括AP(平均IoU閾值),AP$_{50}$,AP$_{75}$,和AP$_{S}$,AP$_{M}$,AP$_{L}$(不同尺度的AP)。除非另有說明,否則AP正在用$mask$ IoU進行評估。與之前的工作【3,22】一樣,我們使用80k訓練集圖像和驗證集圖像(trainval35k)的一個35k子集的聯合來訓練,並報告對剩余驗證集圖像(minival)5k子集的消融。我們還在test-dev【23】上報告了結果,該結果沒有公開的標簽。發布后,我們會按照建議把test-std上的全部結果上傳到公共排行榜。

圖4:在COCO測試集上使用ResNet-101-FPN的Mask R-CNN的更多結果,並且以5fps運行,35.7的掩碼AP(表1)

4.1 主要結果

  我們將Mask R-CNN與表1中實例分割的最先進的方法進行比較。我們模型的所有實例都優於先前最先進模型的基線變體。這包括MNC【7】和FCIS【21】,它們分別是COCO 2015和2016分割挑戰的獲勝者。沒有花里胡哨,具有ResNet-101-FPN backbone的Mask R-CNN優於FCIS+++【21】,其中包括多尺度訓練/測試,水平翻轉測試和在線硬件示例挖掘(OHEM)[30]。雖然超出了這項工作的范圍,但我們希望許多此類改進使用於我們。

  Mask R-CNN的輸出在圖2和4中可視化。Mask R-CNN即使在極具挑戰性的條件下也能取得良好結果。在圖5中,我們比較了Mask R-CNN的基線和FCIS+++【21】。FCIS+++在重疊實例上展示了系統的偽像,表明它受到實例分割基本難度的挑戰。Mask R-CNN沒有顯示這樣的偽像。

 

圖5:FCIS+++[21](上)vs. Mask R-CNN(下,ResNet-101-FPN)。FCIS展示了在重疊目標上的系統樣本。

4.2 消融實驗

  我們提出了許多指控來分析Mask R-CNN。結果顯示在表2中並且接下來詳細討論。

Architecture:表2a顯示了具有各種backbones的Mask R-CNN。它受益於更深層次的網絡(50vs101)和先進的設計,包括FPN和ResNeXt。我們注意到並非所有的框架都自動受益於更深或者先進的網絡(參見【17】中的基准測試)。

Multinomial vs. Independent Masks:Mask R-CNN解耦掩碼和類別預測:當現有的框分支預測類別標簽的時候,我們為每一個類生成掩碼而沒有類別間的競爭(通過每個像素的sigmoid和binary損失)。在表2b中,我們將其與使用每像素softmax和多項式損失(如FCN【24】中常用)進行比較。該替代方法耦合了掩碼和類別預測任務,並導致掩碼AP的嚴重損失(5.5點)。這表明,一旦實例被分類為整體(通過框分支),就可以預測二元掩碼而不關心類別,這使得模型更容易訓練。

Class-Specific vs. Class-Agostic Masks:我們默認的實例化預測特定類的掩碼,即每個類一個$m$x$m$的掩碼。有趣的是,具有類別禁止掩碼的Mask R-CNN(即,無論類別預測單個$m$x$m$輸出)幾乎同時有效:它具有29.7掩碼AP和ResNet-50-C4上類特定對應物的30.3。這進一步突出了我們方法中的分工,這在很大程度上解耦了分類和分割。

RoIAlign:我們提出的RoIAlign層的評估顯示在表2c中。對於本實驗我們使用ResNet-50-C4 backbone,它的步長為16。RoIAlign比RoIPool提高了約3點AP,其中大部分增高來自高IoU($AP_{75}$)。RoIAlign對最大/平均池化敏感;我們在論文的其余部分使用平均池化。

  此外,我們與MNC【7】中提出的RoIWarp相比較,該方法采用雙線性采樣。如第3節討論的,RoIWarp仍然量化RoI,失去與輸入對齊。從表2c可以看出,RoIWarp的表型和RoIPool相當並且比RoIAlign差。這突出了對齊是關鍵。

   我們還評估了有ResNet-50-C5 backbone的RoIAlign,它有一個甚至更大的32像素的步長。我們使用了與圖3相同的head,因為res5的head不適用。表2d展示了RoIAlign通過大量7.3點改善了掩碼$AP$,和通過10.5點改善掩碼$AP_{75}$(50%的相關改善)。此外,我們注意到使用RoIAlign,使用$stride-32 C5$特征(30.9$AP$)比使用$stride-16 C4$特征(30.3$AP$,表2c)更准確。RoIAlign在很大程度上使用大步特征進行檢測和分割進行長期挑戰。

  最后,當我們使用FPN的時候,RoIAlign展示了增益為1.5掩碼$AP$和0.5框$AP$,其中FPN有更精細的多級步長。對於需要更精細對齊的關鍵點檢測,即使使用FPN,RoIAlign也顯示出大的增益(表6)。

Mask Branch:分割是一個像素到像素的任務,並且我們使用FCN來利用掩碼的空間布局。在表2e中,我們使用ResNet-50-FPN backbone來比較多層感知器(MLP)和FCNs。使用MLP可提供超過MLP的2.1掩碼AP增益。我們注意到,我們選擇這個主干以至於FCN head的卷積層沒有被預訓練,以便和MLP的公平比較。

4.3 邊界框檢測結果

  我們將Mask R-CNN和表3中最先進的COCO $bounding-box$ 目標檢測對比。對於此結果,即使訓練完整的Mask R-CNN模型,也只在推理中使用分類和框輸出(忽略掩碼輸出)。使用ResNet-101-FPN的Mask R-CNN優於所有先前最先進模型的基本變體,包括GRMI【17】的單模型變體,即COCO 2016檢測挑戰的獲勝者。使用ResNeXt-101-FPN,Mask R-CNN進一步改善了結果,在【31】(使用Inception-ResNet-v2-TDM)的最佳先前單模型條目上有3.0點框$AP$的余量。

   作為進一步比較,我們訓練一種在表3中用“Faster R-CNN,RoIAlign”表示的沒有掩碼分支的Mask R-CNN的版本。由於RoIAlign,該模型優於【22】提出的模型。另一方面,它比Mask R-CNN低0.9點框$AP$。因此,Mask R-CNN在框檢測上的這種差距僅僅取決於多任務訓練的好處。

  最后,我們注意到Mask R-CNN在它的掩碼和框$AP$之間獲得小的差距:例如,37.1(掩碼,表1)和39.8(框,表3)之間的2.7點。這表明我們的方法在很大程度上減少了目標檢測和更具挑戰的實例分割任務之間的差距。

4.4 定時

Inference:我們訓練了ResNet-101-FPN模型,該模型在Faster R-CNN的4步訓練后共享RPN和Mask R-CNN階段之間的特征【29】。該模型在NVIDIA Tesla M40 GPU上以每個圖像195ms的速度運行(加上15ms的CPU時間,將輸出調整為原始分辨率),並統計上獲得與非共享掩碼$AP$相同的掩碼$AP$。我們還報告說ResNet-101-C4變體需要約400ms,因為它有一個更重的框head(圖3,),因此我們不建議在實踐中使用C4變體。

  雖然Mask R-CNN很快,但是我們注意到我們的設計沒有針對速度優化,並且可以實現更好地速度/准確率的平衡【17】,例如,通過改變各種圖像尺寸和提議數量,那個超出了本文的范圍。

Training:Mask R-CNN訓練得也快。在COCO trainval35k上使用ResNet-50-FPN進行8-GPU同步訓練需要32小時(每16張圖像小批量0.72秒),使用ResNet-101-FPN需要44小時。事實上,當在訓練集上訓練時,快速原型制作可以在不到一天的時間內完成。我們希望這樣快速的訓練將消除這個領域內的主要障礙,並且鼓勵更多的人對這個具有挑戰行的話題上進行研究。

5. 用於人體姿態估計的Mask R-CNN

  我們的框架可以容易地擴展到人體姿態估計。我們將關鍵點的位置建模為one-hot掩碼,並且采用Mask R-CNN來預測$K$個掩碼,每個$K$關鍵點類型都有一個(例如,左肩,右肘)。這個任務幫助證明了Mask R-CNN的靈活性。

  我們注意到我們系統利用了人體姿態估計的最小領域知識,因為實驗主要證明了Mask R-CNN框架的泛化性。我們期望領域知識將與我們的簡單方法互補,但它超出了本文的范圍。

Implementation Details:當我們對關鍵點調整時,對分割系統記性微小的修改。每個實例的$K$個關鍵點的每一個,訓練目標是一個one-hot的$m$x$m$的二元掩碼,其中僅僅將一個單像素標記為前景。在訓練期間,對於每一個可見真值關鍵點,我們最小化$s^{2}-way$ softmax輸出(它鼓勵單點檢測)上的cross-entropy損失。我們注意到,在實例分割中,$K$個關鍵點仍要獨立對待。

  我們采用ResNet-FPN,並且關鍵點head架構是與圖3(right)中相似。關鍵點head由一堆八個3x3 512-d卷積層組成,其后是deconv層和2x雙線性方法,產生了56x56的輸出分辨率。我們發現關鍵點級定位精度需要相對較高的分辨率輸出。

  模型在所有包含注釋關鍵點的COCO trainval35k的圖像上訓練。為了減少過擬合,因為訓練集是更小的,我們用從[640, 800]像素上隨機采樣的圖像比例訓練模型;推理是在800像素的單尺度上。我們訓練90k次迭代,從0.02學習率開始並且在60k和80k次迭代時減少10。我們使用邊界框非極大值抑制,閾值為0.5。其它實現和3.1節一樣。

Experiments on Human Pose Estimation:我們使用ResNet-50-FPN評估人員關鍵點$AP(AP^{kp})$。我們已經對ResNet-101進行了實驗,並且發現它實現了相似的結果,可能是因為更深的模型受益於更多的訓練數據,但是這個數據集相對較小。

  表4顯示我們的結果(62.7$AP^{kp}$)比用多階段處理管道的COCO 2016關鍵點檢測的獲勝者【4】高出0.9分(參見表4的標題)。我們的方法更簡單,更快捷。

  更重要的是,我們有一個統一的模型,可以同時預測框,分割和關鍵點,同時運行速度為5fps。添加分割分支(針對人員類別)可以將test-dev上的$AP^{kp}$改善為63.1(表4)。表5列出了在minival上多任務學習的更多摘要。添加掩碼分支到box-only(例如,Faster R-CNN)或keypoint-only版本上可以一貫地改善這些任務。但是,添加關鍵點分支會略微減少框/掩碼$AP$,這表明雖然關鍵點檢測可以從多任務訓練中受益,但是它不會反過來幫助其它任務。然而,共同學習三個任務能使一個統一的系統可以同時有效地預測所有輸出(圖6)。

  我們還研究了關鍵點檢測上RoIAlign的影響(表6)。雖然這個ResNet-50-FPN backbone有更精細的步長(例如,最精細的4個像素),RoIAlign仍然比RoIPool有顯著改進,並且增加了4.4點$AP^{kp}$。這是因為關鍵點檢測比定位精度更敏感。這再次表明對齊對於像素級定位是至關重要的,包括掩碼和關鍵點。

  鑒於Mask R-CNN用於提取目標邊界框,掩碼和關鍵點的有效性,我們期望它是其它實例級任務的有效框架。

References

【1】M. Andriluka, L. Pishchulin, P. Gehler, and B. Schiele. 2D human pose estimation: New benchmark and state of the art analysis. In CVPR, 2014.

【2】P. Arbelaez, J. Pont-Tuset, J. T. Barron, F. Marques, and J. Malik. Multiscale combinatorial grouping. In CVPR, 2014.

【3】S. Bell, C. L. Zitnick, K. Bala, and R. Girshick. Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks. In CVPR, 2016.

【4】Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh. Realtime multi-person 2d pose estimation using part affinity fields. In CVPR, 2017.

【5】J. Dai, K. He, Y. Li, S. Ren, and J. Sun. Instance-sensitive fully convolutional networks. In ECCV, 2016.

【6】J. Dai, K. He, and J. Sun. Convolutional feature masking for joint object and stuff segmentation. In CVPR, 2015.

【7】J. Dai, K. He, and J. Sun. Instance-aware semantic segmentation via multi-task network cascades. In CVPR, 2016.

【8】J. Dai, Y.Li, K. He, and J. Sun. R-FCN: Object detection via region-based fully convolutional networks. In NIPS, 2016.

【9】R. Girshick. Fast R-CNN. In ICCV, 2015.

【10】R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014.

【11】R. Girshick, F. Iandola, T. Darrell, and J. Malik. Deformable part models are convolutioanl neural networks. In CVPR, 2015.

【12】B. Hariharan, P. Arbelaez, R. Girshick, and J. Malik. Simultaneous detection and segmentation. In ECCV. 2014.

【13】B. Hariharan, P. Arbelaez, R. Girshick, and J. Malik. Hyper-columns for object segmentation and fine-grained localization. In CVPR, 2015.

【14】K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV. 2014.

【15】K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016.

【16】J. Hosang, R. Benenson, R. Dollar, and B. Schiele. What makes for effective detection proposals? PAMI, 2015.

【17】J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara, A. Fathi, I. Fischer, Z. Wojna, Y. Song, S. Guadarrama, et al. Speed/accuracy trade-offs for modern convolutional object detectors. In CVPR, 2017.

【18】M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu. Spatial transformer networks. In NIPS, 2015.

【19】A. Krizhevsky, I. Sutskever, and G. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, 2012.

【20】Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackerl. Backpropagation applied to handwrittern zip code recognition. Neural computation, 1989.

【21】Y. Li, H. Qi, J. Dai, X. Ji, and Y. Wei. Fully convolutional instance-aware semantic segmentation. In CVPR, 2017.

【22】T.-Y. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie. Feature pyramid networks for object detection. In CVPR, 2017.

【23】T.-Y Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, and C. L. Zitnick. Microsoft COCO: Common objects in context. In ECCV, 2014.

【24】J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation, In CVPR, 2015.

【25】V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In ICML, 2010.

【26】G. Papandreou, T. Zhu, N. Kanazawa, A. Toshev, J. Tompson, C. Bregler, and K. Murphy. Towards accurate multi-person pose estimation in the wild. In CVPR, 2017.

【27】P. O. Pinheiro, R. Collobert, and P. Dollar. Learning to segment object candidates. In NIPS, 2015.

【28】P. O. Pinheiro, T.-Y. Lin, R. Collobert, and P. Dollar. Learning to refine object segments. In ECCV, 2016.

【29】S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015.

【30】A. Shrivastava, A. Gupta, and R. Girshick. Training region-based object detectors with online har d example mining. In CVPR, 2016.

【31】A. Shrivastava, R. Sukthankar, J. Malik, and Gupta. Beyond skip connections: Top-down modulation for object detection. arXiv:1612.06851, 2016.

【32】C. Szegedy, S. Ioffe, and V. Vanhoucke. Inception-v4, inception-resnet and the impact of residual connections on learning. In ICLR Workshow, 2016.

【33】J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders. Selective search for object recognition. IJCV, 2013.

【34】S.-E. Wei, V. Ramakrishna, T. Kanade, and Y. Sheikh. Convolutional pose machines. In CVPR, 2016.

【35】S. Xie, R. Girshick, P. Dollar, Z. Tu, and K. He. Aggregated residual transformations for deep neural networks. In CVPR, 2017.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM