引言
介紹
- 目前精度高的檢測器都是基於two-stage,proposal-driven機制,第一階段生成稀疏的候選對象位置集,第二階段使用CNN進一步將每個候選位置分為前景或者背景以及確定其類別;
- 提出一個one-stage檢測器可以匹配two-stage檢測器在COCO上AP,例如FPN、Mask R-CNN,為了到達這一結果針對訓練過程中類別不平衡這個阻礙問題,設計出一個新的loss,focal loss;
- R-CNN類檢測器可以通過two-stage級聯和啟發式采用來解決class imbalance問題,proposal stage包括:Selective Search、EdgeBoxes、DeepMask、RPN,可以迅速候選區域數目降低過濾大量background樣本;在第二個分類stage啟發式采樣,可以采取的策略有:固定前景和背景的比例1:3或者采用OHEM在線困難樣本挖掘,可以用來維持前景和背景樣本可操作性平衡;
- one stage檢測器需要處理更大的候選位置集,雖然也應用了同樣的啟發式采樣,但是效率低下因為在訓練過程中很容易受到簡單背景樣本的支配;這種低效率問題是目標檢測的典型問題,對此典型的解決方法是bootstrapping、HEM;
- focal loss是一個能夠動態縮放的cross entropy loss,當正確類別的置信度提高時縮放因子衰減為0,縮放因子可以自動降低easy例子在訓練期間貢獻loss的權重,使得模型注重hard例子;
- 為了驗證focal loss的有效性設計了一種one-stage的目標檢測器RetinaNet,它的設計利用了高效的網絡特征金字塔以及采用了anchor boxes,表現最好的RetinaNet結構是以ResNet-101-FPN為bakcbone,在COCO測試集能達到39.1的AP,速度為5fps;
創新點
1、Focal Loss:
2、RetinaNet:
為了評估focal loss的有效性,設計和訓練出了RetinaNet,在使用focal loss對RetinaNet進行訓練時可以匹配之前的one-stage的方法,同時在精度上超過了目前所有的two-stage檢測器