Chenyi Chen——【ACCV2016】R-CNN for Small Object Detection

作者和相關鏈接

- 論文下載
- Chenyi Chen , Ming-Yu Liu， Jianxiong Xiao
- 所有作者的簡單信息

方法概括
- 這篇文章主要討論針對小目標的目標檢測
- 文章為了證明：對傳統的R-CNN style的方法進行改進，可以用於小目標檢測，並且性能比DPM方法好
  - 整個檢測流程：
  1. 用改進版的RPN（修改了anchor的尺度，稱為modified RPN）提取候選區域；
  2. 用改進版的CNN（結合了上下文信息的CNN模型，base的CNN可以用AlexNet或者VGG，稱為ContextNet）對候選區域進行分類。（不做box regression）
創新點和貢獻
- 文章從三個角度對比了小目標檢測的方法：
  1. 候選區域生成：傳統RPN vs.modified RPN（更好！）
  2. 上采樣策略：上采樣比例小+去掉全連接 vs.上采樣比例大+保留全連接（更好！）
  3. 是否使用上下文信息：不適用上下文 vs. 使用上下文（更好！）
- 文章的貢獻在於：
  1. 提出了一個專門針對小目標的目標檢測benchmark庫；
  2. 提出了一個把傳統R-CNN方法進行改進用於小目標檢測的思路和流程
- 小目標的難點：
  1. 一張圖中小目標比大目標往往更多
  2. 小目標的像素少（信息少）
  3. 目前針對小目標的研究非常有限，大部分文獻都是針對VOC庫中的大目標
方法細節
- 小目標benchmark庫的建立
  - 小目標的定義？
    - 現實生活中的目標的物理大小相對較小，比如，鼠標，插孔，盤子等等，即實際大小也比較小
    - 在圖像中所占整張圖像的比例小

- - 大庫（包含大，小目標）如何做成小庫（僅包含小庫）？
    - 使用Microsoft COCO和SVN庫的子集
    - 只挑選了10類
    - 去掉10類中目標比較大的（即使是鼠標類，在有的圖像中鼠標也很大，把這些樣本去掉）
  - 數據庫大小
    - 4925張圖像，8393個目標（train：test = 2:1）
    - 具體的類別，圖像數，相對面積分布如下表：

- - 評估標准（mAP，和普通的多類目標檢測一樣）
    - 單類的PR曲線（調整IOU的閾值）
    - 單類的average precision：（PR曲線求積分，面積）
    - 多類的mAP：每類的average precision直接取平均
- 針對R-CNN style方法進行修改得小目標檢測方法和流程
  - 候選區域生成
    - 本文方法（modified RPN）：普通的RPN修改了anchor大小修改 + feature map選擇
    - anchor 大小修改：128^2， 256^2，512^2 → 16^2， 40^2， 100^2
    - feature map選擇：conv5 → conv4_3
    - 初始RPN的anchor 和流程如下：

- - - 拿來對比的兩種方法：DPM（據說在R-CNN出現之前最好的方法，HOG+SVM），原始的RPN（用來檢測大目標的）
    - 實驗對比結果

實驗結論：修改anchor尺度（modefied RPN）比DPM好，比原始RPN好！

- - 上采樣策略
    - 本文方法（full AlexNet）：直接把modefied RPN得到的候選區域resize成分類要用的CNN的原始輸入圖像（AlexNet是227，VGG是224）
    - 對比的方法（Partial AlexNet）：把候選區域resize成67*67，輸入到分類要用的CNN（因為AlexNet和VGG有全連接層，所以只能處理固定成規定大小的圖像，但是如果把全連接層去掉，只取卷積層，就能用於處理大小和規定的固定大小不一樣的輸入圖像），最后接個分類層
    - 實驗對比結果：
      - 因為候選區域的大小很小，如果用full AlexNet（全連接層），則必須resize成227或者224，都是放大了好幾倍，所以作者考慮到這樣的放大可能引入了artificats，這個部分的實驗就是在證明即使這樣放大的效果也比不用整個網絡只用全卷積層得到的效果更好。作者認為，第一，因為輸入圖像大小變小了，所以相同的感受野大小（網絡結構相同）對小圖而言，可能就是對應了原圖的很大部分，屬於coarse的scale，而對於大圖，因為只對應原圖的一小部分，所以更加fine，細節更多，信息更豐富；第二，從得到的特征來看，小圖的feature更短，大圖的feature更長（只考慮卷積層）。

實驗結論：取整個（包括fc層）分類網絡（Full AlexNet）比只取卷積部分的網絡（Partial AlexNet）好

- - 上下文信息的結合
    - 本文方法（Context-AlexNet）網絡結果如下圖：
      - 網絡結構分為兩部分，front-end和back-end。
      - front-end由兩個並行的CNN組成，一個以proposal region直接作為輸入，經過6個conv層（Alex或者VGG）+1個fc層，得到4096維的特征；另一個以proposal region為中心，在原圖上取4倍的proposal region的一個context region作為輸入，經過6個conv層+1個fc層，得到4096維的特征
      - back-end以front-end的兩個4096的特征串起來作為輸入，經過2個fc層+1個softmax層得到每個proposal region的分類信息。