（轉）基於深度學習的物體檢測

Index

RCNN

Rich feature hierarchies for accurate object detection and semantic segmentation
早期，使用窗口掃描進行物體識別，計算量大。
RCNN去掉窗口掃描，用聚類方式，對圖像進行分割分組，得到多個侯選框的層次組。

原始圖片通過Selective Search提取候選框，約有2k個
侯選框縮放成固定大小
經過CNN
經兩個全連接后，分類

Fast RCNN

Fast R-CNN
RCNN中有CNN重復計算，Fast RCNN則去掉重復計算，並微調選框位置。

整圖經過CNN，得到特征圖
提取域候選框
把候選框投影到特征圖上，Pooling采樣成固定大小
經兩個全連接后，分類與微調選框位置

Faster RCNN

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
提取候選框運行在CPU上，耗時2s，效率低下。
Faster RCNN使用CNN來預測候選框。

整圖經過CNN，得到特征圖
經過核為
提取出物體框后，采用Fast RCNN同樣的方式，進行分類
選框與分類共用一個CNN網絡

anchor box的設置應比較好的覆蓋到不同大小區域，如下圖:

一張

R-FCN

R-FCN: Object Detection via Region-based Fully Convolutional Networks
RCNN系列(RCNN、Fast RCNN、Faster RCNN)中，網絡由兩個子CNN構成。在圖片分類中，只需一個CNN，效率非常高。所以物體檢測是不是也可以只用一個CNN？
圖片分類需要兼容形變，而物體檢測需要利用形變，如何平衡？
R-FCN利用在CNN的最后進行位置相關的特征pooling來解決以上兩個問題。

經普通CNN后，做有

普通CNN后，還有一個RPN(Region Proposal Network)，生成候選框。
假設一個候選框大小為

訓練與SSD相似，正負點取一個常數，如128。除去正點，剩下的所有使用概率最高的負點。

YOLO

You Only Look Once: Unified, Real-Time Object Detection
Faster RCNN需要對20k個anchor box進行判斷是否是物體，然后再進行物體識別，分成了兩步。
YOLO則把物體框的選擇與識別進行了結合，一步輸出，即變成”You Only Look Once”。