RetinaNet 單階段目標檢測算法

本文轉載自查看原文 2019-10-20 12:01 677

閱讀論文注意事項：

（１）對於一篇好的論文，首先會介紹之前的研究有什么問題，這篇論文解決了什么問題，他的有點在什么地方。

（２）在復現一篇論文之前，應該仔細去閱讀論文實驗部分。因為直覺閱讀方法部分就去復現，往往難以達到論文所提出的那個效果。在細節上的處理，作者會在實驗部分介紹。

１、Introduction

１．作者：Ross Girshick(RGB)代表作R-CNN，何凱明ResNet　　　　　　　　　　　　　　　　　　

２．兩階段流行算法：R-CNN系列

　　２．1　Faster R-CNN系列

　　　　a.輸入圖片，提取特征圖；

　　　　b.特征圖經過RPN得到候選框；

　　　　c.候選框映射回特征圖，對框內圖像分類。

　　左邊的rpn網絡找框，右邊做分類。由於兩個分支，導致檢測速度較慢。

３．單階段流行的算法：YOLO, SSD

　　３．１　SSD

　　　　a.輸入圖片，得到不同層，不同尺寸的特征圖；

　　　　b.在不同尺寸的特征圖上密集的選取候選框；（現在稱之為錨框）

　　　　c.得到所有后選框和ground truth的交並比，大於閾值的為正樣本；（下圖灰色的就是負樣本）

　　　　d.最后的損失值為邊框回歸損失和分類損失的和。（ground truth 候選框大小需要根據feature maps 按比例調整）

問題是：對於每一層的特征圖都要去設置密集的候選框，這樣產生的問題就是，產生了太多的負樣本，使得單階段目標檢測器的准確率較低。優點在於它只有一路網絡，速度比兩階段目標檢測器更快。

××××××××××××××為了解決正負樣本不平衡的問題，作者提出了Focal Loss。××××××××××××××××××××

４．相關算法：

　　4.1交叉熵損失函數（Cross Entropy Loss Function, CE）　　

　　4.2全卷積網絡（Fully Convolution Network, FCN）最早提出是為了解決語義分割的問題，最后通過上采樣生成與原圖片一樣大小的feature map替換了全連接層。從像素級對圖像每個像素進行分類，達到分割的效果。另外一個優點在於：全卷積網絡對於輸入圖片的大小沒有要求，輸入圖片大最后特征就多，輸入圖片小最后特征就少。但是全連接層必須要接受固定數量的輸入，使得在做檢測和訓練時必須要將圖片轉換為固定的大小。