論文閱讀筆記七:Structure Inference Network:Object Detection Using Scene-Level Context and Instance-Level Relationships(CVPR2018)


結構推理網絡:基於場景級與實例級目標檢測

 

原文鏈接:https://arxiv.org/abs/1807.00119

代碼鏈接:https://github.com/choasup/SIN

Yong LiuRuiping WangShiguang ShanXilin Chen. Structure Inference Net: Object Detection Using Scene-Level Context and Instance-Level Relationships. published in CVPR 2018

摘要

     上下文信息對視覺識別准確率的提高上有着十分重要的意義。本文中,作者不僅考慮了一張圖片中物體的外觀特征,同時考慮了圖片中的場景信息和物體之間的聯系這兩種上下文信息。通過將圖片中的物體作為圖模型中的一個節點,目標物之間的聯系作為圖模型中的邊進而將目標檢測問題轉變為結構推理的問題。結構推理網絡是在經典的檢測網絡上結合一個用於推理物體狀態的圖模型結構形成的檢測器。該模型結構在PASCAL VOC 和 MS COCO數據集目標檢測任務的提升上發揮了很大的作用。

相關工作

     現階段基於卷積神經網絡的目標檢測大致被分為兩大類,一個是基於區域建議框的兩階段檢測,另一個是單階段檢測。隨着深度學習的發展,兩階段檢測逐漸占主要地位,其代表方法有R-CNN, Fast R-CNN, Faster R-CNN等。其第一步是產生大量的候選框,第二步是將將這些框分類為前景和背景。R-CNN是從候選區域中提取出特征並用線性SVM進行分類。

      為了提高速度,Fast R-CNN提出了一個ROI-polling操作來從共享卷積層中提取每一個候選框的特征向量。Faster R-CNN將前半部分區域框的生成和后半部分的分類器結合到一個卷積網絡中。單階段的目標檢測像YOLO和SSD都能夠以一定的准確率實現實時檢測。對一張圖片中的不同目標進行檢測往往被認為是相互獨立的任務,雖然上述方法大多對明顯的物體分類效果較好,但是對於自身特征模糊的小物體檢測效果並不理想。

     本文提出的結構將場景信息與物體之間的關系信息進行模型化處理,並根據結構預測出圖片中的物體。在深層網絡上增加一個圖模型結構並通過使用結構推理技術來完成結構預測任務。 

本文方法

       本文的目標是通過挖掘豐富的上下文信息來改善檢測模型。重點考慮了物體之間的聯系和場景信息等來進行模型的設計。該模型用於在不同的場景和目標物體之間迭代的傳播信息。整體結構框架圖如下:

 

                                                                 

 

 

        首先,從一張輸入圖片中得到一定數量的感興趣區域(ROIs),針對每一個感興趣區域將其調整成固定大小的特征圖,然后通過一個全連接層將其映射為特征向量作為圖模型中的一個節點。作者將整張圖片進行上述相同的處理操作作為場景信息,然后,將每對感興趣區域映射變換后進行級聯作為圖模型里的邊元素。結構推理方法用於迭代更新節點的狀態,節點的最后一個狀態被用來預測相關感興趣區域的類別及其位置。整個框架在Faster R-CNN的基礎上進行改進並進行端到端的迭代訓練。

圖模型

 

 

        作者將一副場景圖片轉變為一個圖模型結構,V代表建議框池(proposals),s代表場景信息,E代表每兩個節點之間的關系。經過區域建議網絡(RPN)后會有成千上完個包含檢測目標的區域框(proposals),通過使用非最大值抑制處理進而獲得一定數量的感興趣區域(ROIs)。

信息的傳遞

        對於每個節點來說,相互信息交流的關鍵是對來自場景和其他節點的信息進行編碼處理,由於單個節點會接到不同種類的輸入信息,因此,需要設計一種記憶機制的融合函數,可以記錄節點自身的細節信息並結合輸入的信息從而得到有意義的表述。循環神經網絡的一個關鍵是允許先前的輸入信息的記憶以網絡內部狀態形式存在,進而影響網絡的輸出。

門循環單元(GRU)是一種輕量級而且高效的循環神經網絡。結構圖如下。

 

 

      圖中ht代表先前的隱層狀態,h~ 代表一個新的隱層狀態,ht+1 代表更新的狀態,結構中包含兩個門,一個為更新門z,用於決定更新的狀態是否被新的隱層狀態所更新,重置門r用於決定先前的隱層狀態是否被忽略。使用的是邏輯sigmoid 函數作為其激活函數。

       本文使用GRU將不同的信息編碼為物體的狀態。對於場景信息的編碼,用物體的細節信息初始化GRU,將場景信息作為輸入。GRU單元可以忽略與場景無關物體的部分信息,同時使用場景信息來增強部分目標的位置類別等狀態。對於來自其他目標物信息的編碼,將目標物的細節信息作為GRU的初始化,將來自其他節點的融合信息作為GRU的輸入。該GRU會選擇相關的信息來更新目標物體的隱層狀態。當目標物狀態更新,物體之間的聯系也會發生改變,隨着更新迭代增加,模型也會更加穩固。

結構推理

        一系列的場景GRU和邊GRU被用來傳播來自場景和其他節點的信息。然后節點按如下圖進行更新。

 

 

        上圖左側為scene GRU部分,用目標物的特征作為初始化,用場景信息也就是整張圖片的特征圖作為輸入,通過學習其關鍵的門函數來選擇有效信息對節點進行更新。

       右側為edge GRU部分,用於編碼來自其他物體的信息。前提是要先計算得到一個融合的信息,針對每個節點,edge GRU會選擇融合信息的一部分來更新該節點,由於不同物體的作用不一樣,因此,本文將每對物體映射為一個純量的權重,代表物體之間的聯系。融合信息按如下方式計算得到:

 

 

 

 

       這里不選用均值池化操作的原因是防止大量不相關的ROIs對融合信息產生影響。

       R代表視覺信息,將每對RoI的空間位置信息進行變換級聯操作。對於一個節點,將來自Scene GRU的輸出和來自Edge GRU的輸出進行取均值操作,作為該節點的狀態。

在接下來的迭代操作中,Scene GRUs 會將更新的后的節點狀態作為隱層狀態,將固定尺寸的場景特征作為輸入,用於計算下一個節點的狀態。Edge GRUs會下一對物體的之間的關系信息作為輸入,用於計算下一個隱層狀態。最后,上述融合后的信息被用來進行目標物體的分類和框回歸。

結果

本文結構推理網絡在PASCAL VOC 和MS COCOl兩個數據集上進行了測試。使用了在ImageNet預訓練得到的VGG-16模型,在訓練和測試階段選擇128個盒子作為目標物體的建議池(proposals)。將Fastet R-CNN按照原始公開的參數訓練作為評判基准。動量,權重衰減,batch size采用與Faster R-CNN相同的設置。在使用VOC2007 trainval 和VOC2012 trainval聯合訓練並在VOC2007 test 數據集上進行測試時,前80k步采用的學習率為5x10-4 ,在后50k步中,學習率調整為5X10-5 ,在使用VOC2007 trainvaltest 和VOC2012 trainval聯合訓練並在VOC2012 test 數據集上進行測試時,前100k步采用的學習率為5x10-4 ,在后70k步中,學習率調整為5X10-5 ,在使用COCO train訓練並在COCO2015 dev-test 數據集上進行測試時,前350k mini-batches步采用的學習率為5x10-4 ,在后200k mini-batches步中,學習率調整為5X10-5

結果如下:

                                                     

    在VOC 2007 test 上得到更高的mAP 76%

 

                                                          

                                                                                                  在VOC 2012 test上得到mAP為73.1%

                

                                                                                                    在COCO test-dev設置IOU為0.5上實現了23.2的分數

結論

    本文提出了結合場景信息和物體之間聯系的檢測方法。為了更加有效地利用這些信息,提出了結構推理網絡。實驗表明,在與場景高度相關的類別上檢測效果很好。針對物體之間關系的實例級對物體的定位檢測發揮了很重要的作用。

參考文獻

[1] B. Alexe, N. Heess, Y. W. Teh, and V. Ferrari. Searching for objects driven by context. In NIPS, 2012.2

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM