SSD論文閱讀(Wei Liu——【ECCV2016】SSD Single Shot MultiBox Detector)
目錄
- 作者及相關鏈接
- 文章的選擇原因
- 方法概括
- 方法細節
- 相關背景補充
- 實驗結果
- 與相關文章的對比
- 總結
作者

- intro: ECCV 2016 Oral
- arxiv: http://arxiv.org/abs/1512.02325
- paper: http://www.cs.unc.edu/~wliu/papers/ssd.pdf
- slides: http://www.cs.unc.edu/%7Ewliu/papers/ssd_eccv2016_slide.pdf
- github: https://github.com/weiliu89/caffe/tree/ssd
- video: http://weibo.com/p/2304447a2326da963254c963c97fb05dd3a973
- github(MXNet): https://github.com/zhreshold/mxnet-ssd
- github: https://github.com/zhreshold/mxnet-ssd.cpp
- github(Keras): https://github.com/rykov8/ssd_keras
文章的選擇原因
- 性能好,single stage

方法概括
-  文章的方法介紹- SSD主要用來解決目標檢測的問題(定位+分類),即輸入一張待測圖像,輸出多個box的位置信息和類別信息
- 測試時,輸入一張圖像到SSD中,網絡輸出一個下圖最右邊的tensor(多維矩陣),對該矩陣進行非極大值抑制(NMS)就能得到每個目標的位置和label信息
  - Figure2的最右圖的1th-20th Channel表示類別,每一個Channel上的map對應原圖,last 4 channel的每一個map分別對應x,y,w,h的偏移量。最后4個通道可以確定一個box的位置信息,前20個通道確定類別信息。 
 
-  方法的pipeline和關鍵點

方法細節
-  模型結構

-  多尺度特征圖


-  用來預測的卷積濾波器

-  defaul box



-  groundTruth的標定,損失函數

-  default box和尺度的選擇

-  SSD的訓練——Hard negative mining

-  SSD的訓練——數據擴增

相關背景補充
-  Atrous算法(hole算法)


-  FPS/SPF, Jaccard overlap

-  二類分類/檢測常用的評價標准 (recall, precision, f-measure, accuracy, error, PR曲線和ROC曲線,AP,AUC)


-  ImageNet多類分類的評價標准

-  ImageNet單目標檢測的評價標准

-  ImageNet(多)目標檢測的評價標准

實驗結果
-  PASCAL VOC2007 test detection結果

-  使用數據擴增、多尺度default box、atrous算法的對比效果

-  SSD512在某類Ianimals)上的檢測性能可視化




-  SSD對於目標大小的敏感性實驗


-  SSD使用的feature map的個數對結果的影響

-  示例結果

-  時間和速度

與相關文章的對比
-  原始R-CNN方法的變形

-  Faster R-CNN和SSD對比

-  YOLO和SSD對比

總結
-  文章貢獻- SSD, a single-shot detector for multiple categories (faster than YOLO, accurate as Faster R-CNN)
- The core of SSD is predicting category scores and box offsets for a fixed set of default bounding boxes using small convolutional filters applied to multiple feature maps from different layers
- Experimental evidence: high accuracy, high speed, simple end-to-end training (single shot)
 
-  SSD對於其他方法的改進的關鍵點
-  
          - Using a small convolutional filter to predict object categories and offsets in bounding box locations
- Using separate predictors (filters) for different aspect ratio detections
- Using multiple layers for prediction at different scales (apply these filters to multiple feature maps to perform detection at multiple stages)
 
