論文閱讀筆記三十七:Grid R-CNN(CVPR2018)


 

論文源址:https://arxiv.org/abs/1811.12030

 開源代碼:未公開

摘要

      本文提出了目標檢測網絡Grid R-CNN,其基於網格定位機制實現准確的目標檢測。傳統方法主要基於回歸操作,Grid R-CNN則捕捉詳細的空間信息,同時具有全卷積結構中對位置信息的敏感性。【 Instead of using only two independent points】是指CornerNet預測的不准確性。Grid R-CNN使用多點監督,用於編碼更多的細節信息,同時降低了不准確的特定點的影響。為了很好的利用網格中點的相關性,提出了一個兩階段信息融合策略融合相鄰網格點的feature map。基於網格定位機制可以擴展的其他目標檢測框架中。與基於Res50的Faster R-CNN相比在COCO數據集上 ,Grid R-CNN在IOU=0.8下AP提升了4.1%。基於FPN結構在IOU=0.9條件下提升了10.0%。

介紹

      目標檢測任務可以拆分為目標分類及定位兩部分。經典的邊界框定位模型為一個回歸分支,其帶有幾個全連接層,並在高層次的feature map上進行候選框偏移的預測(propsoal或者預定義的anchor )。

      本文提出的Grid R-CNN,將傳統的回歸部分替換為一個基於網格點定位的機制。顯式的空間表示對於准確定位發揮重要作用。回歸方法 是將feature map通過一個全連接層壓縮為一個向量,而Grid R-CNN將目標邊界框划分為一個個格子,同時應用一個全卷積網絡,預測格子中點的位置。由於全卷積結構具有位置敏感性。Grid R-CNN保存顯式的空間信息,同時可以得到格子中點的位置信息。如下圖,當某個特定位置中一定數量的網格點確定,則對應的邊界框位置也就確定了。由網格點指引,Grid R-CNN可以得到比傳統回歸方法更准確的空間信息。

 

      由於邊界框有四個自由度,兩個獨立的點(左上角及右下角)足夠可以用於定位目標。然而,由於點的位置與局部特征並未直接對應,因此,預測工作仍具有挑戰性。比如,上圖中,貓右上角的點不在貓身上。同時該點鄰域只包含圖片的背景,與周圍像素共享相似的局部特征。為解決此問題,本文設計了多點監督機制。通過在一個格子中預定義目標點,可以得到更多的細節信息,從而降低預測不准確點的影響。比如,對於一個典型的3x3的格子監督。右上角的y坐標可能是不准確的,因此可以用剛好位於物體邊界上的中上點(橘色點)與右上角點的y軸進行校准。網格點可以有效的減少總偏差。

      此外,為了更好的利用格子中點的相關性,本文提出了信息融合的方法。具體實現為,對每一個grid point 設計一個單獨的feature maps集。對於一個網格點,其相鄰點的feature maps融合為一張feature map。融合后的feature map用於對應網格點的位置預測。因此,結合網格相關點的空間信息,提高了位置預測的准確率。

      本文主要貢獻:

            (1)提出了Grid R-CNN,替換掉傳統的基於全連接層保存空間i信息的回歸網絡。Grid R-CNN首次提出基於像素級預測網格點定位目標的二階段的目標檢測網絡。

            (2)設計了一個多點監督機制,用預測網格中的點,從而減少不准確點的作用。進一步提出了基於feature map級別的信息融合可以編碼相關網格點的空間信息,可以對位置很好的進行校准。

            (3)實驗發現Grid R-CNN可以應用至不同的目標檢測框架,同時,取得較好的結果。

相關工作

      本文方法基於兩階段的目標檢測,做了簡單的回顧,兩階段的目標檢測從R-CNN開始,基於區域的深度網絡用於對每個RoI進行分類及定位。RoI由一些低層次的據算計視覺算法得到。SPP-Net,與Fast R-CNN通過在共享feature map上提取區域feature map。雖然,SPP-Net,Fast R-CNN有效的提升了目標檢測的效果,但ROI生成部分仍無法進行端到端的訓練。隨后,Faster R-CNN通過提出了一個輕量級的區域生成網絡(RPN)解決上述問題,進而產生一系列離散的RoI。可以使整個網絡進行端到端的訓練,從而提高了訓練的精度與速度。

      進來,許多工作在不同方面擴展Faster R-CNN的結構來實現更好的檢測。R-FCN提出用一個基於區域的全卷積網絡替換原始的全連接網絡。FPN提出了一個t帶有側連接的op-down的結構用於建立高層次的不同尺寸的語義信息。Mask R-CNN通過在原始邊界框回歸分支增加一個平行分支用於預測一個像素級的目標mask擴展Faster R-CNN。本文與Mask R-CNN不同,用一個新的網格分支替換回歸分支用於目標的定位。

      CornerNet 是一個單階段的目標檢測器是一個單階段的目標檢測網絡,使用成對的關鍵點對目標的邊界框進行定位。CornerNet是自底向上的檢測器,通過一個沙漏網絡檢測邊界框所有可能關鍵點位置。同時,設計了一個嵌入式網絡盡可能的映射成對的關鍵點。通過嵌入式機制,可以將檢測器的角成對分組,並對邊界框進行定位。

      本文方法與CornerNet不同,CornerNet為一個自底下個上的方法,因此,在沒有實例的情況下直接生成關鍵點。CorenerNet的關鍵是識別屬於相同實例的關鍵點,並對其進行組合。本文是自頂向底的二階段方式。首先定義實例。本文關注如何更准確的定位邊界關鍵點,此外,本文設計了網格點的特征融合,利用網格中相關點的特征進行校准,相比兩個點,准確率較高。

Grid R-CNN

      網絡整體結構如下,基於Region proposal,每個RoI的特征獨立的從CNN的feature map中提取。提取的ROI特征用於后續相應proposal的分類及定位工作。本文用網格引導機制預測定位來替換偏差回歸。基於全卷積網絡作為網格預測分支。輸出一個空間map(概率heatmap),可以定位與目標物對齊的邊界框的網格點。借助網格點,通過feature map級別的特征融合,最終確定目標物的准確邊界框。

 Grid Guided Localization

      以前基於全連接層對框的偏差進行回歸用於目標定位,本文應用一個全卷積網絡對預先定義的網格點的位置進行預測,然后利用這些點去欸的那個目標邊界框。設計了一個大小為NxN的網格形式的目標點於目標物的邊界框對齊。本文舉了一個3x3的栗子。這里的網格點包含四個角點,四條邊的重點及中心點共9個點。每個proposal的特征通過RoIAlign操作進行提取,經過固定空間大小的14x14,后接8個3x3的空洞卷積層。然后,接兩層反卷積層增大feature map的分辨率為56x56,網格預測分支輸出NxN heatmaps,分辨率為56x56,將每個heatmap上使用像素級的sigmoid用於得到概率圖。每一個heatmap有一個相對應的監督map。其中,5個交叉的像素被標記為目標網格點的正位置。使用二分類交叉熵損失作為優化方法。

      推理時,在每個heatmap上挑選confidence最高的像素,計算原圖中對應位置作為網格點。在heatmap上的一個點(Hx,Hy)將按如下等式映射至原圖點。

      然后,通過預測的網格點確定目標邊界框的四個邊界。將四個邊界的坐標定義為,分別代表左,上,右,底邊。表示第j個坐標為

 

的網格點,預測的概率為Pj。Ei代表定位第i個邊的網格點的索引集合。,邊界坐標按如下方式計算。

 

 

 以上邊界yu舉例,代表頂邊三個y軸坐標的概率加權平均。

Grid Points Feature Fusion

       網格內部各點之間存在空間相關性,同時其位置可以彼此互相校准,從而減少整體的偏差,因此,本文設計了空間信息融合模型。一種直觀感覺是對坐標水平的平均, 但這樣做會丟失豐富的feature map信息。另一種方法是提取feature map上相關網格點的局部特征用於融合操作。然而,這種方法仍會丟失不同feature maps中潛在的有效信息。以3x3的網格舉例,為了校准左上角的定點,左上角的特征區域中,鄰域點的feature maps(如上層中間點)可能會提供有效信息,但並未加以利用。為此,設計了一個feature map級的信息融合機制用於利用grid中的每個點。為了區分不同點的feature map,使用NxN組卷積核單獨的提取特征。同時,相應的網格點進行監督。因此,對於一個確定的網格點,每個feature map都由確定的關系。Fi表示第i個點相關的feature map。

        對於每個網格點,具有L1距離為1的點有利於融合操作,這些點稱為源點。將源點集合定義為Si,對於Si中的第j個源點,Fj將被3個連續的5x5的卷積層處理,用於信息轉移,處理過程定義為Tj-i。所有源點處理后的特征於Fi進行融合,最終得到一個融合的feature map ,如下圖,本文使用簡單的加法操作用於融合進行增強。

        融合信息用下式表示。在每個網格點基礎上得到的,在新的卷積層執行融合操作,此過程的參數與上一級之間是獨立互不影響的。第二次得到的融合信息用於最終heatmap的輸出,進而用於網格點的位置預測。第二級融合可以使信息以距離為2的范圍進行轉移。如上圖b,左上角的點可以結合其他5個點的信息用於校准。

 

 

Extended Region Mapping

        網格預測模型輸出heatmaps,其具有固定的空間大小,用於表示網格點位置的confidnece 分布。由於全卷積網絡結構的使用,空間信息始終被保存,輸出的heatmap很自然與輸入的propsoal的原圖中的位置進行相關聯。然而,有的region proposal可能無法覆蓋目標,意味着,有些groudnd truth 可能會超過region proposal的邊界,從而無法在進行推理時在監督map上進行標記。

        訓練時,一些網格點labels的缺失會無法有效的利用訓練樣本。在推理時,選出heatmap中最大的像素,網格點可能會得到一個完全錯誤的位置,對應的ground truth會在對應區域的外側。如下圖。

        一種方法是擴大proposal的區域,此方法可以確保大部分的網格點被包含在proposal中,但也會引入大量無用的背景,甚至其他目標物體。實驗發現,此方法對准確率無較大提升,甚至會使准確率降低。

        為解決上述問題,本文通過擴展的區域映射方法修改了輸出的heatmaps與原圖中區域之間的聯系。具體實現為,當得到proposals時,仍從feature map中相同的區域提取RoI特征。然而,本文重新定義了輸出heatmap的表示區間。修改為原圖對應區域的兩倍,因此,網格點會以較大的概率被覆蓋。擴展的區域映射等式如下。

        映射完后,所有正例propossals(與ground truth box 重合率大於0.5的proposals)的目標網格點都被heatmap的相關區域覆蓋。

 Implementation Detail

        網絡配置: 使用深度為50/101的ResNets或者FPN網絡作為模型的backbone。RPN用於提取候選區域。針對COCO數據集設置的最短輸入邊為800像素,VOC為600像素。RPN中,每個圖片包含256個anchors,正anchor為128,負anchor為128.RPN anchors設置5種尺寸及3個尺寸比例。正樣例的IOU設置為0.7,負樣例的IOU為0.3。分類分支中,ROI大於0.5的被標記為正樣本,基於Faster R-CNN每張圖提取128個RoIs,基於FPN,每張圖提取512個RoIs。正負比例為1:3。RoIAlign應用至每個實驗。分類分支中池化大小為7,網格分支中為14x14。網格預測分支每張圖最多為96個RoIs,只有正類RoIs用於采樣訓練。

        優化: 使用SGD優化訓練,動量為0.9,權重衰減為0.0001。backbone參數使用ImageNet分類任務進行初始化。其他參數量使用He(MSRA)初始化。使用水平翻轉進行數據增強。

        推理: 在推理階段,每張圖中生成300/1000(Faster R-CNN/FPN),RoI的特征使用RoIAlign進行處理。分類分支用於生成類別score。后接閾值為0.5的NMS處理。然后,挑出125個最高的score RoIs,然后,將ROIAlign處理的features 送入網格分支,用於更准確的定位操作。最后,使用閾值為0.5的NMS處理重復的檢測框。

實驗

 

 

 

Reference

        [1] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014. 1, 2, 3

        [2] R. Girshick. Fast R-CNN. In ICCV, 2015. 1, 2, 3

        [3] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015. 1, 2, 3, 5

        [4] T.-Y. Lin, P. Doll´ar, R. Girshick, K. He, B. Hariharan, and S. Belongie. Feature pyramid networks for object detection. In CVPR, 2017. 1, 2, 3, 5, 6, 7

        [5] K. He, G. Gkioxari, P. Doll´ar, and R. Girshick. Mask r-cnn. In ICCV, 2017. 1, 2, 3, 5, 7

        [6] Cai, Z., Vasconcelos, N.: Cascade r-cnn: Delving into high quality object detection. arXiv preprint arXiv:1712.00726 (2017) 1, 3, 6 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM