
論文原址:https://arxiv.org/pdf/1902.09630.pdf
github:https://github.com/generalized-iou
摘要
在目標檢測的評測體系中,IoU是最流行的評價准則。然而,在對邊界框的參數進行優化時,常用到距離損失,而按照IOU的標准則是取其最大值,二者之間是有一定差別的。對一個標准進行優化的目標函數是其標准本身。比如,對於2D的坐標對齊的邊界框,可以直接使用IoU作為回歸損失。然而,該方法存在一個弊端,就是當兩個邊界框不發生重疊時,IoU對損失的貢獻度為0。本文通過定義了一個廣義新的損失及評價標准來解決IoU上述問題的不足,即generalized IoU(GIoU),將GIoU潛入當前較好的目標檢測模型中作為損失,在Pascal VOC及MS COCO數據集上有了較大的提升。
介紹
在2D/3D的計算機視覺任務中,邊界框回歸時最基本的一個組件。像目標定位,多目標檢測,目標追蹤及實例分割等都依賴於准確的邊界框回歸。該領域趨於通過利用較好的backbone或者更好的策略來提取局部特征的深度學習網絡來提升其性能,然而,有一點被人們所忽略的是可以用基於IoU的評價計算機制替換常規的L1,L2損失函數。
IoU也稱做Jaccard index,是比較兩個任意形狀物體相似度最常用的評價標准。IoU編碼比較兩個邊界框的像寬度,長度及位置等形狀屬性為局部屬性,然后,基於正則化機制來關注二者的區域。IoU具有尺寸不變性,基於此機制可以進行目標檢測,分割及追蹤等。
然而,在2D/3D空間上定義兩個邊界框參數表示的常規損失如Ln等使其值最小與通過優化來提高IoU的值,二者之間的並沒有太大的關聯,如下圖所示。黑色的框為預測的框,綠色框為ground truth,每個框由一對角點(左上角及右下角)確定,本文固定這兩個邊界框中的一個角點之間的距離,比如兩個框的左下角的角點之間的L2距離固定,則若預測框的第二個角點總是位於以ground truth第二個角點為圓心的圓上,則二者之間的距離是相同的,但是反觀IoU,其值的變化范圍還是很大的。

一種直觀上的感受就是,找到了像損失這樣的局部最優解對與IoU的局部最優並不產生任何影響。同時,與IoU不同的是,ln-norm目標的構建是基於對於問題的尺寸問題敏感的參數表示。比如,一系列框中具有相同層次的重疊率但由於角度問題形成不同的尺寸,進而得到不同的目標值。另外,不同類型參數表示之間存在正則化上的不足。比如,增加參數或者引入新的維度會增加模型的復雜度,因此一些經典的檢測方法引入anchor這種先驗猜想,同時定義了一個非線性表示來彌補尺寸的變化。雖然有了上述的改進,但IoU與回歸損失二者的優化仍存在較大的差別。
本文研究了兩個軸對齊框的IoU的計算,提出了IoU可以進行反向傳播,並用於目標函數的優化。IoU同時作為標准及損失存在兩個問題:
(1)如果兩個目標物未發生重疊,則IoU的值為0,也就無法反應出二者之間的形狀差異,同時,IoU作為損失,其梯度將變為0,進而無法進行優化。
(2)IoU無法正確區分不同對齊方式的兩個目標為,換言之,不同方位的兩個目標物,其IoU的值可能會是相同的,如下圖,因此,IoU的值無法反應兩個目標物實際的重疊度。

本文通過將IoU擴展至非重疊的情形。主要概括如下:
(a)遵從IoU相同的定義,將兩個邊界框的尺寸信息進行編碼作為區域屬性。
(b)保持IoU的尺寸不變性。
(c)增加重疊目標物下二者IoU的相關度。
相關工作
目標檢測准確率的評估:IoU在目標檢測中用於判斷預測出的框是正樣本還是負樣本。當用於准確率的評估時,必須選擇一個值作為閾值,比如VOC中的mAP需要固定IoU的值比如為0.5 。然而,對於不同的方法,IoU值的任意選擇並不會完全影響定位效果。當IoU的值超過一定的值后,定位的准確率是相同的。為了降低對IoU閾值的敏感性,MS COCO取不同閾值IoU下mAP的均值。
邊界框的表示及其損失:在2D目標檢測任務中,邊界框參數的學習是至關重要的。YOLOv1通過預測邊界框大小的開方來對邊界框進行回歸從而彌補尺寸的敏感性。R-CNN通過對基於Selective Search方法得到的先驗框位置預測及偏移量大小的預測來對邊界框進行參數化表示。進而通過對偏移量進行log-space變換來減弱尺寸對表示的敏感性。基於L2-norm的目標函數如MSE損失,作為優化目標。Fast R-CNN提出用L1-smooth損失來學習更魯棒的外形信息。后來又引入了anchor等先驗框,但其存在明顯的類別不平衡問題,因此,很難進行訓練,因此引入了Focal Loss來進行彌補。
基於近似值來對IoU進行優化:在語義分割中,基於近似函數或者surrogate loss來對IoU進行優化。在目標檢測中存在不重疊情形下IoU的優化問題,本文提出的G-IoU將IoU直接作為目標檢測任務中損失函數的一部分進行優化。
Generalized Intersection over Union
IoU定義如下

IoU的兩個優點:
(1)IoU作為距離,
其值滿足metric的所有屬性,比如非負性,不可區分性,對稱性及三角不等式。
(1)IoU對於問題的尺寸具有不變性。任意形狀的兩個物體A,B之間的相似性與其尺寸無關。
IoU的兩個缺點:
(1)如果兩個物體A,B不發生重疊,IoU不起任何作用。
(2)只要兩個不同的軸對齊框的相交區域相同,IoU的值相同的,因此,IoU並不反映兩個框重疊的方式,如上圖2所示。
G-IoU:首先對於任意的兩個形狀A,B,找到可以包含A,B的最小凸區域C。為了比較兩個形狀確定的幾何體,C的類型可以是相同的,比如A,B都為橢圓,則C可以為包含A,B的最小橢圓。然后,計算拋除A,B后C剩余區域與C整個區域的比值。該方法可以更多的關注A,B之間的空白區域。最后,G-IoU可以有IoU減去前面的值得到。算法如下:

GIou作為一個新的metric有如下特性:
1. 與IoU相似,作為距離,![]()
保留前文IoU的所有距離性質。
2. GIoU對於尺寸具有不變性。
3. GIoU總是IoU的一個下界,
當A,B之間相似度很高時,取等號。
![]()
![]()

5. 與IoU不同的是,GIoU不只是關注重疊區域,而且更關注兩個區域是如何重疊的。
GIoU as Loss for Bounding Box Regression
在目標檢測中,所有的框都為矩形框,因此,可以為計算最小包含區域提供了可行性,利用其坐標的最小及最大函數進行求取。在包含不相交情形的所有情況,GIoU都是存在梯度值的,此外,在較高的IoU下GIoU與IoU具有強烈的相關性,如下圖所示。

Loss Stability: 本文研究對於預測的輸出,是否存在極端情況使損失不穩定或者不存在定義。
ground truth的邊界管Bg是大於0的,同理,Ag也大於0,下列算法中的(1),(4)分別保證了預測的區域及相交區域均為大於0的。因此,對於任意的預測值
,保證IoU的分母不為0.同時,union總比相交區域大。

實驗








Reference
[1] H. Alhaija, S. Mustikovela, L. Mescheder, A. Geiger, and C. Rother. Augmented reality meets computer vision: Efficient
data generation for urban driving scenes. International Journal of Computer Vision (IJCV), 2018. 1
[2] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler,R. Benenson, U. Franke, S. Roth, and B. Schiele. The
cityscapes dataset for semantic urban scene understanding.In Proc. of the IEEE Conference on Computer Vision and
Pattern Recognition (CVPR), 2016. 1
[3] J. Dai, Y. Li, K. He, and J. Sun. R-fcn: Object detection via region-based fully convolutional networks. In Advances
in neural information processing systems, pages 379–387,2016. 3
[4] M. Everingham, L. Van Gool, C. K. I.Williams, J.Winn, and A. Zisserman. The pascal visual object classes (voc) challenge.International Journal of Computer Vision, 88(2):303–338, June 2010. 1, 2, 5
