小物體檢測的增強
摘要:在近些年來,目標檢測已經有了長足的進步。盡管有很大改進,但是在小目標和大目標檢測性能方面還是有巨大的差距。我們在具有挑戰性的數據集MS-COCO上分析了目前性能最好的模型Mask-RCNN。我們發現小目標真實框和預測框的重疊部分遠遠小於希望的IOU臨界值。我們猜測這是由於兩個原因引起的:(1)只有少部分圖像包含小目標;(2)盡管每張圖像中都出現了小目標,但是它們表現得不夠。因此我們建議過采樣這些包含小目標的圖像並且通過多次復制黏貼小目標來增強每張圖像。這將能夠讓我們對檢測器在大目標和小目標檢測的質量之間進行權衡。我們評估了不同的粘貼增強策略,並且最終與目前最好的思想相比(數據集為MS COCO),我們實現了在實例分割方面相對提高了9.7%,在小目標檢測方面提高了7.1%。
論文地址:https://arxiv.org/pdf/1902.07296.pdf
1.前言
在圖像中檢測目標是現在計算機視覺研究中最基本的一項任務,它經常作為許多真實世界研究的開始點,包括機器人學、自動駕駛汽車、衛星和航空圖像分析,在醫學圖像上定位器官位置和質量。這個目標檢測的重要問題最近得到了許多改進。在MS COCO目標檢測競賽中的冠軍已經把平均精度(AP)從2015年的0.373提高到了2017年的0.525(在最基本的挑戰測度IOU=.50:.05:.95),同樣地,在MS COCO實例分割挑戰上的實例分割問題也得到了很大改進。盡管有了很大改進,但是目前的解決辦法在小目標檢測上還是經常表現不佳,其中小目標在MS COCO上定義為如表一。它能說明在大目標和小目標檢測性能方面有巨大差距。見圖1的實例列舉了在MS COCO實例分割挑戰的最高等級子任務,相似的問題出現在實例分割任務中,比如見圖2在目前最好的模型Mask-RCNN上的采樣預測,它丟失了大多數的小目標。

圖1:MS COCO實例分割挑戰的最高子任務,檢測度量標准AP小目標比大目標小了2-3倍
表1:在MS COCO上對小目標、中等目標和大目標的定義

圖2:用Mask-RCNN采樣預測,盡管能夠看清可靠的內容,但系統丟失了很多小目標,比如,數百只鳥只檢測到了六只鳥
小目標檢測在許多下游任務中非常重要。為了讓自動駕駛汽車變得安全,從車上的高分辨率景圖檢測小和遠的目標是有必要的。許多目標,比如交通信號、行人,通常在高分辨率圖像中是不可見的。在醫學圖像上,早期檢測質量和發現腫塊對於做出精確的早的診斷是非常重要的,特別是一些因素在圖像上大小只有幾個像素。小目標檢測同樣有益於自動化工廠檢查,可以通過定位看到材料表面存在的小缺陷。另一個應用就是衛星圖像分析,汽車、船舶和房屋能夠有效的標注。每像素分辨率平均表示0.5米到5米,這些物體只有幾像素大小。換句話說,小目標檢測和分割要有更多的注意力,這需要在現實世界中部署更多的復雜系統。因此,我們提出了一個新想法來提高小目標檢測。
我們關注目前最好的檢測器Mask-RCNN,數據集為MS COCO。首先,我們觀察到在數據集上相對比較少有圖像上包含小目標,任何檢測模型都有潛在的偏差,會更多的關注中等或者大目標。第二,被小目標覆蓋的區域更小,意味着缺乏小目標位置的多樣性,我們猜測當它們出現在圖像中很少會被探索的部分時,這會讓目標檢測模型在測試時很難檢測小目標。
2.相關工作
目標檢測 更快的基於區域卷積神經網絡(Faster R-CNN),基於區域的全卷積網絡(R-FCN)和單點檢測器(SSD)是目標檢測最主要的三種方法,它們區別在於是否或在哪使用了候選區域。Faster R-CNN和它的變體設計用於不同尺寸的物體,不同區域裁剪合並成一個分辨率。然而,這發生在深度卷積網絡內部,可能會導致裁剪框不能完美的匹配物體,在實踐中會損害性能。SSD最近發展到了DSSD,在SSD解碼部分把卷積調換成上采樣低分辨率特征,以此來增加內部的空間分辨率。同樣地,特征金字塔網絡(FPN)的解碼器類型子網絡摻入到Faster R-CNN。
實例分割 實例分割超過了目標檢測,要求預測每個目標確切的掩膜。多任務網絡級聯(MNC)建立了預測級聯和掩碼改進。FCIS是一個全卷積模型,可計算出每個感興趣的區域的位置敏感分數圖。並且它是一個學習像素嵌入的全卷積方法。Mask R-CNN摻入到FPN模型分支用來預測掩碼和引進新的不同裁剪操作用來目標檢測和實例分割。

圖3.通過人工粘貼復制增強小目標的例子。正如我們在例子中看到的一樣,在同樣的圖片中復制有更高的機會看到小目標周圍的信息
小目標 檢測小目標可能通過增加輸入圖片分辨率尋址,或者從低分辨率圖像中融合高分辨率特征和高維特征,然而會增加計算支出和在小目標大目標尋址不平衡。使用生成對抗網絡(GAN)在卷積網絡中提取特征不能區分交通信號和行人檢測里的小目標和大目標。在一個候選區域網絡里基於不同的分辨率層使用不同大小的錨框。通過錨框尺寸的正確部分轉換圖像特征來彌補他們的不同,裁剪小目標候選來增加內容。

圖4.不同尺寸的錨框匹配真實框的示意圖。小目標被很少的錨框匹配到。為了克服這個問題,我們提出通過人工黏貼復制小目標來增強圖像,因此在訓練過程中有更多的框匹配到了小目標。
3.檢測小目標的識別問題
在這個部分,我們首次回顧在我們實驗中用到的MS COCO數據集和目標檢測模型。接下來我們會討論MS COCO數據集的問題和訓練過程中框的匹配過程,那有助於不同的小目標檢測。

表2:在基於RPN的Mask R-CNN里MS COCO數據集目標數據和匹配框
3.1 MS COCO
我們實驗中使用MS COCO檢測數據集。MS COCO2017檢測數據集包含118287張訓練圖片,5000張驗證圖片和40670張測試圖片。從80個種類標注了860001個真實邊界框和36781個實例掩膜。
在MS COCO檢測挑戰中,基本評價標准就是平均精度(AP)。通常,AP定義為真陽性樣本和陽性樣本的比率,對於所有的召回值。因為檢測一個物體需要正確定位和正確分類,正確的分類結果只有當預測掩膜或者預測框IOU超過0.5才會被記作真陽性檢測。AP分數由80個種類和10個IOU臨界值平均計算,平均在0.5到0.95之間。指標還包括不同尺度目標測量的AP。在這個工作中,我們感興趣的就是小目標的AP。
3.2 Mask R-CNN
在我們的實驗中,我們使用具有ResNet-50主干的Mask R-CNN實現和線性尺度規則來調整設置學習超參數。我們使用比基線更短的訓練計划。我們訓練自己的模型使用4個GPU來跑36000次迭代,用0.01作為基本學習率。對於優化,我們使用隨機梯度下降方法,動量設置為0.9,權重衰減系數設置為0.0001。學習率在經過24000次和32000次兩次迭代訓練后,降為原來的0.1倍。其他所有參數配置保持與基線Mask R-CNN+FCN+ResNet-50相同。
網絡中的區域候選階段在我們的調查研究中特別重要。我們使用特征金字塔網絡(FPN)來生成目標候選。它用50個錨框預測目標候選,其中有五個尺度(322,642,1282,2562,5122)和三個長寬比(1,0.5,2)。一個框如果對於任何真實框IOU超過0.7或者有更高的IOU超過真實邊界框接受為正標簽。


圖5:Mask-RCNN網絡中訓練時正向分配給ground truth objects的錨點(IoU > 0.5)。有必要強制至少一個錨被積極分配給每一個ground truth對象,即使欠條低於閾值。否則,就像上面的兩張圖片一樣,大多數小物體將會被遺漏,並且永遠不會被訓練。其他圖像正在驗證我們正在解決的問題。大的物體比小的物體有更多積極的錨點。
3.3 在MS COCO數據集上通過Mask R-CNN進行小目標檢測
在MS COCO數據集上,在訓練集中41.4%為小目標,34.4%為中等目標,24.2%為大目標。另一方面,只有一半的訓練圖片包含任何小目標,有70.07%的訓練圖片包含中等目標,82.28%訓練圖片包含大目標。見表2的目標計數和圖像。這證實了小目標檢測的第一個小問題:這里只有很少的樣本包含小目標。
第二個問題就是對每個種類大小考慮總的目標區域。被標注的像素只有1.23%屬於小目標。中等大小目標區域比小目標大超過8倍,有10.18%的像素被標注,大部分的像素,82.28%被標注為大目標。任何在這個數據集訓練的檢測器都沒有足夠的小目標,無論是在圖像和像素上。
在這個部分敘述之前,每個在候選區域網絡的預測框接受為正標簽,當它有比真實邊界框更高的IOU或者對於任何真實框IOU超過0.7。這個過程高度偏向大目標,大目標跨多滑動窗口位置,擁有高IOU的大量錨框,然而小目標可能只匹配單個錨框並且低IOU,正如表2列出來的一樣,只有29.96%錨框正確匹配小目標,有44.49%錨框正確匹配大目標。從另一個角度來看,它暗示這里2.54個錨框匹配一個大目標,一個錨框匹配一個小目標。此外,平均最大IOU顯示,即使小目標最好的匹配錨框,它的IOU值仍然很低。小目標平均最大IOU只有0.29,中等目標和大目標最好匹配錨框大約是小目標的兩倍,分別是0.57,0.66。我們通過可視化一些例子在圖5闡釋這種現象。這些觀察表明小目標對計算候選區域損失貢獻很少,這就讓整個網絡偏向於大目標和中等目標。
4.過采樣和增強
我們正在通過明確地解決我們在上一節中概述的MS COCO數據集的小目標相關問題來提高小目標檢測器的性能。特別是,我們過度采樣包含小對象的圖像,並執行小對象增強,以鼓勵模型更多地關注小對象。雖然我們使用Mask R-CNN評估所提出的方法,但它通常適用於任何其他目標檢測網絡或框架,因為過采樣和增強都是作為數據預處理完成的。
過采樣我們通過在訓練[4]時對這些圖像進行過采樣來解決包含小目標的圖像相對較少的問題。這是一種簡單而直接的方法來緩解MS COCO數據集的這一問題,並提高了小目標檢測的性能。在實驗中,我們改變過采樣率,研究過采樣不僅對小目標檢測的影響,而且對大中型目標檢測的影響。
增強在過采樣的基礎上,我們還引入了聚焦於小對象的數據集增強。MS COCO數據集中提供的實例分段掩碼允許我們從其原始位置復制任何對象。然后復制粘貼到不同的位置。通過增加每幅圖像中小目標的數量,匹配的錨點數量也隨之增加。這反過來又提高了小目標在訓練過程中對RPN損失函數計算的貢獻。
在將對象粘貼到新位置之前,我們對其應用隨機變換。我們通過改變對象的大小±20%和旋轉它±15◦縮放對象。我們只考慮非遮擋的對象,因為粘貼不相交的分割掩模與不可見的部分之間,往往導致更不現實的圖像。我們確保新粘貼的對象不與任何現有的對象重疊,並且距離圖像邊界至少5個像素。
在圖4中,我們圖示了所提出的增強策略,以及它如何在訓練過程中增加匹配的錨點的數量,從而更好地檢測小目標。
5.實驗設置
5.1 過采樣
在第一組實驗中,我們研究了包含小物體的過采樣圖像的效果。我們在2、3和4之間改變過采樣率。為了提高效率,我們不使用實際的隨機過采樣,而是離線創建多個帶有小對象的圖像副本。
5.2 增強
在第二組實驗中,我們研究了使用增強對小目標檢測和分割的影響。我們復制並粘貼每個圖像中的所有小目標一次。我們還對帶有小物體的圖像進行過采樣,以研究過采樣和增強策略之間的相互作用。
我們測試三種設置。在第一個設置中,我們用復制粘貼的小對象替換每個帶有小對象的圖像。在第二種情況下,我們復制這些增強圖像來模擬過采樣。在最終設置中,我們保留原始圖像和增強圖像,這相當於用小對象對圖像進行兩倍的過采樣,同時用更多的小對象來增強副本。
5.3 復制黏貼策略
復制粘貼小對象有不同的方法。我們考慮三種不同的策略。首先,我們在圖像中選取一個小對象,並在隨機位置復制粘貼多次。其次,我們選擇許多小對象,並在任意位置復制粘貼每一個對象一次。最后,我們將每個圖像中的所有小對象在隨機位置復制粘貼多次。在所有的情況下,我們使用上面的第三個增強設置;也就是說,我們既保留原始圖像,也保留它的增強副本。

表3:不同過采樣率的實驗。我們觀察到,無論檢測小物體的比率如何,過采樣都有幫助。這個比率允許我們在小物體和大物體之間進行權衡。
5.4 粘貼算法
粘貼小對象的副本時,有兩點需要考慮。首先,我們必須決定粘貼的對象是否會與任何其他對象重疊。雖然我們選擇不引入任何重疊,但我們通過實驗驗證了這是否是一個好策略。其次,是否執行附加程序來平滑粘貼對象的邊緣是一種設計選擇。與沒有進一步處理相比,我們實驗了不同濾波器大小的高斯模糊邊界是否有幫助。
6.結果和分析
6.1 過采樣
通過在訓練期間更頻繁地采樣小目標圖像(見表3),可以提高小對象分割和檢測上的應用程序。觀察到的最大增益是3倍過采樣,這將小目標的平均精度提高了1%(對應提高了8.85%)。雖然中等對象規模的性能受影響較小,但大對象檢測和分割性能始終受到過采樣的影響,這意味着必須根據大小對象之間的相對重要性來選擇比率。
6.2 增強
在表4中,我們給出了使用建議的增強和過采樣策略的不同組合的結果。當我們用包含更多小對象的副本(第二行)用小對象替換每個圖像時,性能會顯著下降。當我們以兩倍的倍數對這些增強圖像進行過采樣時,對小對象的分割和檢測性能又恢復了損失,盡管總體性能仍然比基線差。然而,當我們在一個增強的驗證集上評估這個模型,而不是原來的模型時,我們看到小目標的性能增加了38%,這表明訓練后的模型有效地過渡到“粘貼”的小對象,但不一定過渡到原始的小對象。我們認為這是由於粘貼造成的偽像,如不完美的對象遮罩和背景亮度差異,這些對神經網絡來說相對容易發現。最好的結果是通過結合過采樣和以p = 0.5(原始+aug)的概率進行增強來實現的,原始與增強的小對象之比為2:1。這種設置產生了比單獨過采樣更好的結果,證實了所提出的粘貼小對象策略的有效性。

表4:增強實驗。當帶有小目標的原始圖像及其帶有復制粘貼的小目標的副本用於訓練時,就小對象和整體而言,實現了最佳性能。

表5:單個對象的復制粘貼。我們觀察到,通常最好只復制粘貼單個對象幾次(1倍或2倍),尤其是為了實現高整體性能
6.3 復制黏貼策略
單個對象的復制粘貼在表5中,我們看到復制粘貼單個對象會在小對象上產生更好的模型,但是,代價是大圖像上的性能略有下降。這些結果本身也比兩倍過采樣要好。然而,性能已經在1或2次黏貼達到了頂峰。多次添加同一個對象不會產生任何性能改進。

表6:多個對象的復制粘貼。相對於單個對象的復制粘貼,多做幾份比較好(3倍)。

表7:所有小對象的復制粘貼。每個小對象最好只做一個副本,這個策略並沒有比多次復制粘貼多個(但不是全部)對象的策略表現更好。
多個對象的復制粘貼 從表6可以看出,每個圖像復制粘貼多個小對象比只復制粘貼一個對象要好。在這種情況下,我們可以看到每個對象最多粘貼三次的好處。
最后,表7列出了復制粘貼每個圖像中所有小對象的結果。我們發現在對所有對象進行一次擴充時,分割和檢測的結果都是最好的。我們懷疑這背后有兩個可能的原因。首先,通過擁有所有小對象的多個副本,原始對象與粘貼的小對象的比率迅速降低。第二,每個圖像中的對象數量成倍增加,這導致訓練圖像和測試圖像之間更加相當大的不匹配。
6.4 粘貼算法
如表8所示,隨機粘貼到圖像中,而不考慮其他對象已經占據的區域,會導致小圖像的性能較差。

表8:不同粘貼算法的結果。我們觀察到,在復制粘貼小目標時,不引入任何重疊是至關重要的,並且高斯模糊粘貼對象的邊緣是不可取的。
它證明我們的設計選擇是正確的,以避免粘貼的對象和現有對象之間的任何重疊。此外,粘貼對象邊緣的高斯模糊沒有顯示出任何改善,這表明粘貼對象最好保持原樣,除非采用更復雜的融合策略。
7. 結論
我們研究了小目標檢測問題。我們表明,小對象平均精度差背后的一個因素是訓練數據中缺少小對象的表示。對於現有的最先進的目標檢測器來說尤其如此,該檢測器需要存在足夠的目標,以便在訓練期間預測錨能夠匹配。為了克服這個問題,我們提出了兩個策略來擴充原始的MS COCO數據庫。首先,我們表明在訓練過程中,通過對包含小對象的圖像進行過采樣,可以很容易地提高小對象的性能。其次,提出了一種基於復制粘貼小對象的增強算法。我們的實驗證明,與當前技術水平相比,實例分割的相對改進為9.7%,小對象的對象檢測的相對改進為7.1%。正如實驗所證實的那樣,所提出的一套增強方法提供了大小物體預測質量之間的權衡。
