論文原址:https://arxiv.org/pdf/1809.08545.pdf
github:https://github.com/yihui-he/KL-Loss
摘要
大規模的目標檢測數據集在進行ground truth 框標記時仍存在這歧義,本文提出新的邊界框的回歸損失針對邊界框的移動及位置方差進行學習,此方法在不增加計算量的基礎上提高不同結構定位的准確性。而學習到的位置變化用於在進行NMS處理時合並兩個相鄰的邊界框。
介紹
在大規模目標檢測數據集中,一些場景下框的標記是存在歧義的,十分不利於邊界框的標記及邊界框回歸函數的學習。
圖下圖(a,c),一些框的標記並不是很准確。當物體被遮擋時,邊界框更不清晰,如下圖(d)所示。
目標檢測包含分類及定位是一個多任務的學習問題。Faster R-CNN,Cascade R-CNN及Mask R-CNN依靠邊界框回歸來進行目標定位。傳統的基於Smooth L1損失的邊界框回歸損失並未考慮ground truth 模糊的情形。一般來說分類的分數越高,其邊界框的回歸應更為准確,然而,這種情況很少,如下圖所示。
本文提出了KL損失用於解決上述問題,本文新提出的邊界框損失-KL損失,可以同時學習邊界框的回歸以及定位的不確定性。為了捕捉邊界框預測的不確定性,首先將邊界框的預測及ground truth 框分別看作時高斯分布及Dirac delta函數。則新定義的回歸損失可以看作是預測分布及真實分布之間的KL散度。KL損失有三個優點:
(1)可以成功步驟數據集中的歧義現象。邊界框回歸器從有歧義的邊界框中得到更小的損失。
(2)學習到的方差在后處理階段十分有用,本文提出的variance voting通過在NMS時利用學習到的方差作為相鄰框的權值來vote出候選框的位置。
(3)學習到的概率分布時具有可解釋性的。其影響邊界框不確定性的等級。在自動駕駛及機器人上十分有幫助。
相關工作
單階段檢測雖然高效,但是state-of-the-art仍基於雙階段檢測。雙階段首先會生成proposal,進而產生大量重疊的邊界框,標准的NMS會將類別分數低的,但是較為准確的框給剔除掉。本文的var voting嘗試利用相鄰的邊界框來進行更好的定位。
目標檢測的損失函數,UnitBox引入IoU loss函數用於邊界框的預測,Focal Loss通過修改標准的交叉熵損失用於處理類別不平衡問題,對於容易分類的樣本其權重更低。KL損失可以在訓練時調整每個物體的邊界方差,可以學習到更多差異的特征。
soft NMS及learning NMS用於改進NMS,相比刪除所有類別分數較低的邊界框,soft NMS將衰減其他相鄰框的檢測分數來作為與更高分數框重疊率的連續函數,leaning NMS,提出學習一個新的網絡只對boxes及分類分數進行NMS處理。
邊界框的增強,MR-CNN首次提出在迭代定位中將框進行merge操作。IoU-Net提出學習預測框與ground truth框之間的IoU,然后,根據學習到的IoU應用IoU-NMS,與IoU-Net不同,本文概率分布的角度對位置方差進行單獨學習。因此,本文可以對四個坐標的方差進行單獨的學習,而不只是IoU。var voting 通過由KL損失學習到的相鄰邊界框的方差來對選擇的框產生新的位置。
方法
邊界框參數化:基於兩階段的檢測網絡如:Faster R-CNN,Mask R-CNN,如下圖所示,本文提出獨立的對框的邊界進行回歸,(x1,x2,x3,x4)代表邊界框的4維數組。不同於R-CNN使用的(x,y,w,h)本文使用參數化的(x1,y1,x2,y2),如下
本文重點評估位置的置信度。本文預測一個位置的分布,而不是邊界框的位置,分布和混合高斯或者高斯矩陣一樣復雜沒本文假設四個坐標分布獨立,定義了單方差的高斯來進行簡化。如下
上述分布由一個全連接層預測得到。ground truth 邊界框可以看作的高斯分布,為狄利克雷 函數,如下
基於KL損失的邊界框回歸:本文物體定位的目標是通過在N個樣本最小化與
之間的KL散度來評估
,如下
基於KL-損失的邊界框回歸如下,分類損失不變。
如下圖所示,當預測的x_e不准確時,期望網絡可以預測更大的方差,進而可以是Lreg拉低。
此部分與參數
無關,因此,最終得到如下等式,
當方差設置為1時,KL損失退化為標准的Euclidean損失,如下
分別對xe及方差求偏導,得到如下等式,由於方差在分母的位置,因此,在剛開始訓練時梯度可能會發生彌散,為了避免這種情況,本文對方差做了log變換,,則變為如下中間等式。又繼續調整等式使其具有smooth L1損失的形式,進而
等式如右下側。
用隨機高斯分布對FC層進行初始化,標准偏差及均值分別設置為0.0001及0,因此,KL損失在訓練的剛開始時與smooth L1損失相似。
variance voting:根據學習到的相鄰框之間的方差來選出候選邊界框的位置。作者通過標准NMS或者soft NMS來挑選邊界框的位置。挑選出具有最大分數的邊界框b,,其新位置根據自身及相鄰邊界框計算得到。手Soft-NMS啟發,對距離近且較為確定的邊界框給其更大的權重,如,x1作為一個坐標,xi作為第i個框的坐標,新坐標的計算公式如下,
在voting過程中,存在兩種相鄰邊界框的權重較低,一個是具有較大方差的框,另一個是與選定框的IoU值較小。由於具有低分數的框可能更准確,因此,類別分數並未引入到voting中。
實驗
Reference
[1] N. Bodla, B. Singh, R. Chellappa, and L. S. Davis. Soft-nms – improving object detection with one line of code. In Computer Vision (ICCV), 2017 IEEE International Conference on, pages 5562–5570. IEEE, 2017. 2, 4, 7, 8
[2] Z. Cai and N. Vasconcelos. Cascade r-cnn: Delving into high quality object detection. arXiv preprint arXiv:1712.00726, 2017. 1, 2
[3] S. Chetlur, C. Woolley, P. Vandermersch, J. Cohen, J. Tran, B. Catanzaro, and E. Shelhamer. cudnn: Efficient primitives for deep learning. arXiv preprint arXiv:1410.0759, 2014. 6
[4] J. Dai, Y. Li, K. He, and J. Sun. R-fcn: Object detection via region-based fully convolutional networks. In Advances in neural information processing systems, pages 379–387, 2016. 2