1. 概述
論文提出了對象上下文表示的方法,即通過利用對應類的對象區域的表示來增加一個像素的表示,利用該區域學習更好的像素表示,從而得到更好的像素標記。實驗驗證,截止ECCV 2020提交日期,“HRNet + OCR + SegFix”在cityspace上前排名第一。
2. 方法介紹
方法包括三個主要步驟:首先,將上下文像素划分為一組軟目標區域,每個軟目標區域對應一個類,即在ground-truth分割的監督下從深度網絡計算得到的粗軟分割。其次,通過聚合像素在相應的目標區域的表示估計每個目標區域的表示。最后,使用對象上下文表示(OCR)來增強每個像素的表示。OCR是將所有目標區域表示與根據像素和目標區域之間的關系計算出的權重進行加權聚合。
ASPP等多尺度上下文只區分空間位置不同的像素,OCR區分相同對象類的上下文像素和不同對象類的上下文像素。
圖1 分割結果
2.1 OCR方法
(1)將圖像I中的所有像素結構化為K個軟目標區域;
(2)將第K個目標區域中所有像素的表示聚合為fk;
(3)聚合K個目標區域表示來增強每個像素的表示,公式表示為:
其中wik為第i個像素點與第k個目標區域的關系,其余為轉換函數。
2.2 Soft object regions(軟目標區域)
將圖像I划分為K個軟目標區域{M1,M2,…, MK}。每個對象區域Mk對應類k,由一個2D映射(或粗分割映射)表示,其中每個條目表示對應像素屬於類k的程度。
作者從一個主干輸出的中間表示來計算K個對象區域。在訓練過程中利用交叉熵損失從ground-truth分割中學習在監督下的目標區域生成器。
2.3 Object region representations
將所有屬於第k個目標區域的按度加權的像素集合表示,形成第k個目標區域表示:
其中xi是像素pi的表示。˜mki是像素屬於k對象區域的歸一化程度。使用softmax來歸一化每個對象區域Mk。
2.4 Object contextual representations
計算每個像素和每個目標區域之間的關系如下:
其中, 分子部分是未標准化的關系函數,兩個變換函數由1×1 conv→BN→ReLU實現。
2.5 Augmented representations
像素pi的最終表示為兩部分的聚合,(1)原始表示xi;(2)對象上下文表示yi。
其中g(·)用於融合原始表示和對象上下文表示的變換函數,由1×1 conv→BN→ReLU實現。
3. 結構
3.1 Backbone
ResNet-101(output stride 8)或HRNet-W48 (output stride 4)。
dilated ResNet-101:有兩種表示輸入到OCR模塊。來自階段3用於預測粗分割(目標區域);第4階段的另一個表示經過3×3卷積(512個輸出通道),然后送入OCR模塊。
HRNet-W48:只使用最終輸出作為OCR模塊的輸入。
3.2 OCR module
圖2 OCR原理
(i)在粉紅色虛線框中形成軟對象區域。(ii)紫色虛線框中估計目標區域表示;(iii)橙色虛線框中計算對象上下文表示和增強表示。
如圖2所示,使用一個線性函數(1×1卷積)來預測粗分割(軟目標區域),使用像素級的交叉熵損失。所有的transform函數實現均為1×1 conv→BN→ReLU。使用一個線性函數從最終圖像表示中預測最終的分割,在最終的分割預測中也應用了像素級交叉熵損失。
4. 實驗
4.1 數據集
Cityscapes、ADE20K、LIP、PASCAL-Context、COCO-Stuff
4.2 實驗設置
數據增強:水平隨機翻轉,在[0.5,2]范圍內進行隨機縮放,在[−10,10]范圍內進行隨機亮度抖動; poly學習策略
4.3 實驗結果
Comparison with multi-scale context scheme
Comparison with relational context scheme
Complexity comparison
Comparison with state-of-the-art