本文轉自:http://www.cosmosshadow.com/ml/%E5%BA%94%E7%94%A8/2015/12/07/%E7%89%A9%E4%BD%93%E6%A3%80%E6%B5%8B.html
RCNN
Rich feature hierarchies for accurate object detection and semantic segmentation
早期,使用窗口掃描進行物體識別,計算量大。
RCNN去掉窗口掃描,用聚類方式,對圖像進行分割分組,得到多個侯選框的層次組。

- 原始圖片通過Selective Search提取候選框,約有2k個
- 侯選框縮放成固定大小
- 經過CNN
- 經兩個全連接后,分類
Fast RCNN
Fast R-CNN
RCNN中有CNN重復計算,Fast RCNN則去掉重復計算,並微調選框位置。

- 整圖經過CNN,得到特征圖
- 提取域候選框
- 把候選框投影到特征圖上,Pooling采樣成固定大小
- 經兩個全連接后,分類與微調選框位置
Faster RCNN
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
提取候選框運行在CPU上,耗時2s,效率低下。
Faster RCNN使用CNN來預測候選框。

- 整圖經過CNN,得到特征圖
- 經過核為 3×3×2563×3×256 的卷積,每個點上預測k個anchor box是否是物體,並微調anchor box的位置
- 提取出物體框后,采用Fast RCNN同樣的方式,進行分類
- 選框與分類共用一個CNN網絡
anchor box的設置應比較好的覆蓋到不同大小區域,如下圖:

一張1000×6001000×600的圖片,大概可以得到20k個anchor box(60×40×960×40×9)。
R-FCN
R-FCN: Object Detection via Region-based Fully Convolutional Networks
RCNN系列(RCNN、Fast RCNN、Faster RCNN)中,網絡由兩個子CNN構成。在圖片分類中,只需一個CNN,效率非常高。所以物體檢測是不是也可以只用一個CNN?
圖片分類需要兼容形變,而物體檢測需要利用形變,如何平衡?
R-FCN利用在CNN的最后進行位置相關的特征pooling來解決以上兩個問題。

經普通CNN后,做有 k2(C+1)k2(C+1) 個 channel 的卷積,生成位置相關的特征(position-sensitive score maps)。
CC 表示分類數,加 11 表示背景,kk 表示后續要pooling 的大小,所以生成 k2k2 倍的channel,以應對后面的空間pooling。

普通CNN后,還有一個RPN(Region Proposal Network),生成候選框。
假設一個候選框大小為 w×hw×h,將它投影在位置相關的特征上,並采用average-pooling的方式生成一個 k×k×k2(C+1)k×k×k2(C+1) 的塊(與Fast RCNN一樣),再采用空間相關的pooling(k×kk×k平面上每一個點取channel上對應的部分數據),生成 k×k×(C+1)k×k×(C+1)的塊,最后再做average-pooling生成 C+1C+1 的塊,最后做softmax生成分類概率。
類似的,RPN也可以采用空間pooling的結構,生成一個channel為 4k24k2的特征層。
空間pooling的具體操作可以參考下面。

訓練與SSD相似,正負點取一個常數,如128。除去正點,剩下的所有使用概率最高的負點。
YOLO
You Only Look Once: Unified, Real-Time Object Detection
Faster RCNN需要對20k個anchor box進行判斷是否是物體,然后再進行物體識別,分成了兩步。
YOLO則把物體框的選擇與識別進行了結合,一步輸出,即變成”You Only Look Once”。

- 把原始圖片縮放成448×448448×448大小
- 運行單個CNN
- 計算物體中心是否落入單元格、物體的位置、物體的類別
模型如下:

- 把縮放成統一大小的圖片分割成S×SS×S的單元格
- 每個單元格輸出B個矩形框(冗余設計),包含框的位置信息(x, y, w, h)與物體概率P(Object)P(Object)
- 每個單元格再輸出C個類別的條件概率P(Class∣Object)P(Class∣Object)
- 最終輸出層應有S×S×(B∗5+C)S×S×(B∗5+C)個單元
- x, y 是每個單元格的相對位置
- w, h 是整圖的相對大小
分類的概率
在原論文中,S = 7,B = 2,C = 20,所以輸出的單元數為7×7×307×7×30。

代價函數:
