論文閱讀筆記五十三:Libra R-CNN: Towards Balanced Learning for Object Detection(CVPR2019)


論文原址:https://arxiv.org/pdf/1904.02701.pdf

github:https://github.com/OceanPang/Libra_R-CNN

摘要

      相比模型的結構,關注度較少的訓練過程對於檢測器的成功檢測也是十分重要的。本文發現,檢測性能主要受限於訓練時,sample level,feature level,objective level的不平衡問題。為此,提出了Libra R-CNN,用於對目標檢測中平衡學習的簡單有效的框架。主要包含三個創新點:(1)IoU-balanced sampling用於減少采樣過程中的不平衡(2)balanced feature pyramid用於減少feature 的不平衡(3)balanced L1 loss用於減少objective level的不平衡。

介紹

      在較為大眾的目標檢測算法中,雖然存在着單階段,雙階段之分,但訓練整體流程大致相同:sampling regions->extracting features ->基於標准的多任務目標函數同時對類別的識別及位置的增強。因此,目標檢測訓練的成功主要依賴於三個方面:I.挑選出的區域樣本是否具有代表性?II.是否可以完全利用提取出的視覺特征?III.設計的目標函數是否是最優的?然而,本文發現在訓練過程中上述三個方面中存在這嚴重的不平衡問題。這些不平衡問題會使得網絡的結構無法得到完全開發進而影響整體的目標檢測性能。如下圖所示。

      Sample level imbalance:在目標檢測的訓練過程中,hard samples更有利於提升目標檢測的性能,然而,基於隨機采樣機制造成的結果一般是使挑選的樣本趨向於easy類型,harde mining算法如OHEM可以更多的關注hard samples。然而,這些方法對噪聲標簽比較敏感,容易造成大量的內存及計算量的消耗。Focal Loss應用於單階段的效果較好,但是,擴展到大部分樣本為簡單負樣本的雙階段檢測模型中,效果一般。

      Feature level imbalance:在backbone中深層具有更多的語義信息,而較低層為更多的內容描述等細節信息。FPN及PANet等通過側連接來進行特征融合,因此,低層特征與高層特征可以對目標檢測進行補充。結合金字塔的特征表示利用這些特征的方法決定着目標檢測的性能。本文認為,融合的信息應該包含每個分辨率的平衡信息。但上述方法使得融合的特征更多關注於相鄰的分辨率而不是其他分辨率。在信息傳遞過程中,每次融合操作,會使得非相鄰層級的語義信息變得稀釋。

      Objective level imbalance:檢測器包含分類及定位兩個任務。因此,在訓練目標函數中結合兩個不同的目標。如果二者不是平衡的,一個目標可能會被限制,進而導致整體不好的效果。此情形同樣適用於訓練過程中的樣本,如果不平衡,由簡單樣本產生的小梯度值會淹沒hard樣本產生的較大的梯度值,進而限制了后續的一些強化操作。因此,針對最優收斂,本文平衡了相關的任務及樣本。

      為解決上述問題,提出了簡單有效的Libra R-CNN框架。三點創新如下:

                     (a)IoU-balanced sampling:根據assigned ground-truth進行mine hard samples

                     (b)balanced feature pyramid:利用相同深度融合的平衡后的語義特征增強多層次的特征。

                     (c)balanced L1 loss:增強重要的梯度,進而對分類,粗定位,細定位進行再平衡。

Methodology

      Libra R-CNN整體結構如下,目標是消除目標檢測訓練過程中存在的不平衡問題。

     IoU-balanced Sampling:本文首先提出了一個問題:訓練樣本及對應ground truth的重疊度IoU是否與樣本的difficulty(這里類比於easy sample,hard sample)相關。實驗如下所示,

      主要考慮了hard sample,發現超過60%的hard negatives的IoU超過0.05,但基於隨機采樣只得到30%左右的訓練樣本。極度的不平衡導致許多hard samples被淹沒在數以萬計的easy樣本中。為此,提出了IoU-balanced sampling:在不增加額外計算量的基礎的簡單有效的mining 方法。假定我們需要從M個相關候選中采樣出N個負樣本。基於隨機采樣,每個樣本被挑選出的概率為:

      為了提高hard negatives選中的概率。根據IoU的值將采樣區間划分為K個格子。N要求負樣本是在每個格子區間中是均勻分布的,然后對其進行均勻采樣。得到的采樣概率如下,

      處理后的結果如上圖,IoU-balanced的采樣使得訓練樣本的分布更接近於hard negatives。同時,也表明,其性能與K的取值無關,更高IoU的樣本更容易被挑選出來。同時,本方法也適用於hard positive 樣本的挑選。然而,大多數情況下,沒有足夠的候選樣本,對正樣本進行擴充,因此,本文選擇了一個替代的方法來達到平衡采樣的目的,即對每個ground truth采樣相同數量的正樣本。

     Balanced Feature Pyramid:本文不同於以前通過側連接的方法來結合多個層級特征的方法,本文通過使用相同深度的融合平衡后的語義信息來增強不同層級的特征,如下圖所示,主要包含四步:rescaling,integrating,refining,strengthening

     Obtaining balanced semantic features:在l級分辨率的特征記作Cl,不同層級的特征數量記作L。最底層及最高層特征的索引記作lmin,lmax,為了融合不同層級的特征,同時保留其語義信息,首先將不同層級的特征{C2,C3,C4,C5}基於插值或者max pooling resize 到同一個尺寸,如C4,然后,取其均值得到平衡后的語義特征。得到的特征,進行rescale然后通過反向操作增強原始每層的特征,此過程不包含任何參數,證明了信息傳遞的高效性。

      Refining balanced semantic features:平衡后的語義特征可以進一步增強增加其分辨性。本文發現卷積和non-local 模型的增強效果都很好,但是non-local模型更加穩健。因此,使用embeded Gaussian non-local attention。refining這一步可以進一步的豐富特征信息,進而提升結果。融合后得到的特征{P2,P3,P4,P5}用於后續的目標檢測中,流程和FPN相同。

      Balanced L1 Loss:Faster R-CNN中定義的多任務損失如下,用於同時處理,分類及定位問題。

      平衡上述損失的一個常規方法是,調整兩個任務損失的權重,然而,對於沒有邊界的回歸目標,直接增加定位損失的權重將會是模型對outliers的點更加敏感,outliers可以被看作是hard samples,這些hard samples可能會產生過大的損失,不利於訓練。inliers可以看作是easy samples,相比outliers對整體的梯度貢獻度較低,相比hard sample,平均每個,easy sample對梯度的貢獻為hard sample的30%,基於上述分析,提出了balanced L1 Loss記作Lb。

       balanced L1 loss由傳統的smooth L1損失演化而來,Smooth L1損失通過設置一個拐點來分類inliers與outliers,並對outliers通過一個max(p,1.0)進行梯度截斷。如圖5-a虛線所示,

       balanced L1 loss的關鍵思想是,促進影響較大的回歸梯度,(像來自inliers即准確樣本的梯度)。進而平衡包含的樣本及任務。從而可以在分類,粗定位,及細定位中進行平衡的訓練。,基於balanced L1 loss的定位損失如下,

       其梯度流程如下,

       上圖5-a中顯示,通過調整參數alph,可以增加inliers的梯度,而對outliers不發生作用,通過設置參數gamma來調整回歸誤差的上界。通過調整這兩個參數,可以得到更加平衡的訓練。參數b用於保證Lb(x=1)條件下,下列等式中兩種情形的值是相同的,及函數是連續的,balanced L1 loss如下

Experiments

      

 

Reference

      [1] Sean Bell, C Lawrence Zitnick, Kavita Bala, and Ross Girshick. Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks. In IEEE Conference on Computer Vision and Pattern Recognition, 2016.

      [2] Zhaowei Cai, Quanfu Fan, Rogerio S Feris, and Nuno Vasconcelos. A unified multi-scale deep convolutional neural network for fast object detection. In European Conference on Computer Vision, 2016.

      [3] Zhaowei Cai and Nuno Vasconcelos. Cascade r-cnn: Delving into high quality object detection. In IEEE Conference on Computer Vision and Pattern Recognition, 2018.

      [4] Kai Chen, Jiangmiao Pang, Jiaqi Wang, Yu Xiong, Xiaoxiao Li, Shuyang Sun, Wansen Feng, Ziwei Liu, Jianping Shi, Wanli Ouyang, and Dahua Lin. Hybrid task cascade for instance segmentation. arXiv preprint arXiv:1901.07518, 2019.

  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM