paper 111：圖像分類物體目標檢測 from RCNN to YOLO

本文轉載自查看原文 2016-08-27 14:19 1599 YOLO/ RCNN/ 物體檢測

參考列表

Selective Search for Object Recognition
Selective Search for Object Recognition(菜菜鳥小Q的專欄)
Selective Search for Object Recognition(Surge)
Selective Search for Object Recognition(原始論文)
Efficient Graph-Based Image Segmentation(快速圖像分割)
Homepage of Koen van de Sande

非極大值抑制（Non-maximum suppression）在物體檢測領域的應用
 Efficient Non Maximum Suppression 筆記（不完整版）

如何評價rcnn、fast-rcnn和faster-rcnn這一系列方法？
RCNN的安裝與簡單使用

Ross B. Girshick(RCNN系列開創者)
rbg’s home page

RCNN
Rich feature hierarchies for accurate object detection and semantic segmentation
https://github.com/rbgirshick/rcnn

Fast RCNN
Fast R-CNN
https://github.com/rbgirshick/fast-rcnn

Faster RCNN
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
https://github.com/rbgirshick/py-faster-rcnn
https://github.com/ShaoqingRen/faster_rcnn

You Only Look Once
You Only Look Once: Unified, Real-Time Object Detection
YOLO Object Detection(視頻)

RCNN

最早的物體識別，是通過窗口掃描的方式進行，並且需要對圖片進行幾個級別的縮放來重復進行。
這種方式非常暴力，計算量大。
RCNN主要解決的是去掉窗口掃描，用聚類方式，對圖像進行分割分組，得到多個侯選框的層次組。
分割分組方法有很多，RCNN用到的是Selective Search。

以下就是RCNN的結構。

從原始圖片，通過Selective Search提取出區域候選框，有2000個左右
把所有侯選框縮放成固定大小
然后通過CNN網絡，提取特征
再添加兩個全鏈接層，然后再用SVM分類，回歸來微調選框位置與大小

Fast RCNN

RCNN有兩千個左右的候選框，都要進行CNN操作。但候選框有大量重疊，造成重復計算。
Fast RCNN就是解決這個問題的。

利用CNN(卷積神經網絡)，得到整個原始圖片的特征層
在原始圖片上通過Selective Search等方法，提取出域候選框
把候選框投影到最后的特征層，並進行Max-Pooling采樣，得到固定大小的特征矩形
然后再通過兩個全連接層，分別用softmax分類，regressor進行選框位置與大小微調

Faster RCNN

在上面的 RCNN 與 Fast RCNN中，相對於在GPU上計算的CNN，在CPU上運行的提取候選框效率低下，一張圖片大概需要2秒。
Faster RCNN則直接利用CNN來計算候選框，方式如下:

原始圖片經過CNN，得到最后的卷積特征
利用
對上圖中的k個anchor box進行是否是物體判斷預測，和矩形框位置與大小微調
選出物體框后，再利用同Fast RCNN同樣的方式，對物體類別進行判斷
選框與分類使用同樣的CNN網絡

一張

注
這里有一點疑惑，

You Only Look Once

Faster RCNN需要對20k個anchor box進行判斷是否是物體，然后再進行物體識別，分成了兩步。
YOLO(You Only Look Once)則把物體框的選擇與識別進行了結合，一步輸出，即變成”You Only Look Once”。
所以識別速度非常快，達到每秒45幀，而在快速版YOLO(Fast YOLO，卷積層更少)中，可以達到每秒155幀。
網絡的整體結構如下圖: