論文題目是STC,即Simple to Complex的一個框架,使用弱標簽(image label)來解決密集估計(語義分割)問題。
2014年末以來,半監督的語義分割層出不窮,究其原因還是因為pixel級別的GroundTruth太難標注,因此弱監督成了人們研究的一個熱門方向。
作者的核心思想是提出了層層遞進的三個DCNN。
具體來講,作者一共訓練了三個網絡:Initial DCNN、Enhanced DCNN和Powerful DCNN。分別解釋如下:
1 、
Initial DCNN:
其實可以把它當作是一個有顯著性檢測功能的CNN,但“它”能夠知道顯著性的物體是什么。
具體實現是由DRFI方法生成Saliency Map,再結合Image level label,來訓練網絡。
2、
Enhanced DCNN:
這一層主要是用來refine每一個物體的分割模版。由於I-DCNN在訓練過程中,使用DRFI會有很大噪聲,因此這時候就需要我們的“弱標簽”出場了。說白了,這個DCNN就是對上一個DCNN的refine。
3、
Powerful DCNN:
有了上述簡單圖像的分割之后,我們需要對復雜的多目標的圖像進行分割了,這時候,以E-DCNN生成的結果作為P-DCNN的GroundTruth來訓練P-DCNN。
這樣,我們就得到了最終的網絡:P-DCNN。附流程圖如下:
附:
文章中的Simple Images是來自於自建的Flickr Clean數據集。Complex Images是來自於Pascal VOC的train_aug。
參考文獻:Wei Y, Liang X, Chen Y, et al. STC: A Simple to Complex Framework for Weakly-supervised Semantic Segmentation[J]. arXiv preprint arXiv:1509.03150, 2015.
---------------------------------------------------------------------------------------------------------------------------
譯文:
摘要:
最近,由於深度卷積神經網絡(DCNN)的發展,語義對象分割已經取得了顯著的進步。訓練這樣的DCNN通常依賴於大量的具有像素級分割掩模的圖像,並且注解這些圖像在財力和人力兩方面都是非常昂貴的。在本文中,我們提出了一個簡單到復雜(STC)的框架,其中只有圖像級別的注釋被用來學習DCNN的語義分割。具體而言,我們首先用簡單圖像的顯著圖(即,具有單個類別的主要對象和干凈背景的那些)的顯著圖來訓練初始分割網絡Initial-DCNN。這些顯著圖可以通過現有的自下而上的顯著物體檢測技術自動獲得,其中不需要監督信息。然后,基於Initial-DCNN以及圖像級注釋,在預測的簡單圖像的分割掩模的監督下學習一個稱為Enhanced-DCNN的更好的網絡。最后,利用Enhanced-DCNN和圖像級注釋推導出復雜圖像(背景雜亂的兩類或多類物體)的更多像素級分割掩模作為監督信息學習Powerful-DCNN語義分割。我們的方法利用來自Flickr.com的40K簡單圖像和來自PASCAL VOC的10K復雜圖像來逐步提升分割網絡。 PASCAL VOC 2012分段基准的廣泛實驗結果很好地證明了與其他技術水平相比,STC框架的優越性。
1 INTRODUCTION
近年來,深度卷積神經網絡(DCNNs)在圖像分類[1] - [4],目標檢測[5],[6]和語義分割[7]等各種計算機視覺任務中展示了出色的能力13]。大多數用於這些任務的DCNN依賴於強監督訓練,即ground-truth邊界框和像素級分割掩模。 但是,與方便的圖像級標簽相比,收集邊界框或像素級掩模的注釋要昂貴得多。 特別是對於語義分割任務來說,標注大量的像素級掩模通常需要大量的財務費用以及人力。
為了解決這個問題,相關研究者們已經提出了一些方法[14] - [18],僅僅使用圖像級標簽作為監督信息進行語義分割。然而,就我們所知,這些方法的性能遠不能令人滿意,考慮到語義分割問題的復雜性,如類內高度差異(例如多樣的外觀,觀點和尺度)以及不同的類別、對象之間的相互作用(例如,部分可見性和遮擋),具有圖像級注釋的復雜損失函數(例如,基於多實例學習的損失函數)[14],[15],[18]由於對分割掩模的內在像素級屬性的忽略,可能不足以用於弱監督語義分割。
需要指出的是,在過去的幾年中,已經提出了許多不需要高級別監督信息的顯著物體檢測方法[19] - [22]來檢測圖像中視覺上最明顯的顯著物體。雖然這些方法對於具有多個對象和雜亂背景的復雜圖像可能不適用,但它們通常為具有單個類別和干凈背景的對象的圖像提供令人滿意的顯著圖。通過自動檢索大量的網頁圖像和檢測相對簡單的圖像的顯著對象,我們可能能夠以低成本獲得大量的用於訓練語義分割DCNN的顯著圖。
在這項工作中,我們基於以下認識(intuition)提出了一個簡單到復雜的弱監督分割框架。對於具有嘈雜背景和兩類或多類物體的復雜圖像,通常只使用圖像級標簽作為監督信息來推斷語義標簽和像素之間的關系是很困難的。然而,對於干凈背景和單一類別主要對象的簡單圖像,前景和背景像素很容易根據顯着的對象檢測技術進行分割[20] - [23]。伴隨圖像級標簽的提示,能夠自然地推斷出在屬於前景的像素中,哪些像素可以被分配相同的語義標簽。因此,可以根據前景/背景掩模和圖像級標簽從簡單圖像中學習初始分割器。此外,基於初始分割器,可以分割更多來自復雜圖像的對象,從而可以不斷學習更強大的分割器以進行語義分割。
具體而言,語義標簽首先被用作查詢以在圖像托管網站(例如,Flickr.com)上檢索圖像。從前幾頁中檢索的圖像通常符合簡單圖像的定義。通過這些簡單的圖像,高質量的顯著性圖通過最先進的顯著性檢測技術生成[22]。基於圖像標簽的監督信息,我們可以很容易地為每個前景像素指定一個語義標簽,並且通過使用多標簽交叉熵損失函數來學習由生成的顯著圖監督的語義分割DCNN,其中每個像素被分類為根據預測概率嵌入在顯著圖中的前景類別和背景。然后,利用簡單到復雜的學習過程逐步提高DCNN的能力,其中通過初始學習的DCNN預測的簡單圖像的分割掩模反過來被用作學習增強的DCNN的監督。最后,利用增強的DCNN,復雜圖像中的更多困難和多類別的掩模被進一步用於學習更強大的DCNN。具體將這項工作所做的貢獻總結如下:
(1)我們提出了一個簡單到復雜的(STC)框架,能夠以弱監督的方式有效地訓練分割DCNN(即,僅提供圖像級標簽)。所提出的框架是通用的,並且可以結合任何最先進的全監督網絡結構來學習分割網絡。
(2)引入了一個多標簽交叉熵損失函數來訓練基於顯著圖的分割網絡,其中每個像素能夠以不同的概率自適應地歸結於前景類別和背景。
(3) 我們在PASCAL VOC 2012分割基准上評估我們的方法[24]。 實驗結果很好地證明了STC框架的有效性,達到了最先進的實驗結果。
2 RELATED WORK
2.1 弱監督語義分割
為了減輕像素級掩模標注的負擔,已經提出了一些用於語義分割的弱監督方法。Dai等人[8]和帕潘德里歐等人[14]提出通過利用帶注釋的邊界框來估計語義分割掩模。例如,通過采用來自Pascal VOC [24]的像素級掩模和來自COCO [25]的帶注釋的邊界框,[8]實現了PASCAL VOC 2012基准的最新結果。為了進一步減少邊界框收集的負擔,一些工作[14-16]提出僅通過使用圖像級標簽來訓練分割網絡。Pathak等人[16]和Pinheiro等[15]提出利用多重實例學習(MIL)[29]框架來訓練分割的DCNN。在[14]中,提出了一種基於期望最大化(EM)算法的替代訓練過程來動態預測前景(含語義)/背景像素。 Pathak等人[18]引入了約束卷積神經網絡的弱監督分割。具體而言,通過利用對象的大小作為額外的監督信息,[18]作出了重大的改進。最近,[28]利用三種損失函數,即seeding,擴張和限制到邊界來訓練分割網絡。 Saleh等人[27]也提出了一個相關的方法,使用前景/背景之前學習分割,這些都能夠證明我們框架的有效性。
2.2 自主學習
我們的框架首先從簡單的圖像中學習,然后將學習到的網絡應用到與自主學習有關的復雜網絡[30]。 最近,各種基於自主學習的計算機視覺應用已經被提出了[31] - [33]。 具體而言,唐等人 [31]通過從簡單的樣本開始,從圖像學習視頻的物體檢測器。 江等人 [32]解決了數據的多樣性問題。 在文獻[33]中,只有很少的樣本被用作訓練弱對象檢測器的seed,然后迭代地累積更多的實例來增強對象檢測器,這可以被認為是輕微監督( slightly-supervised)的自主學習的學習方法。然而,與每次迭代自動選擇樣本進行訓練的自我學習不同的是,簡單或復雜的樣本根據其外觀(例如,單個/多個對象或干凈/混亂的背景)在訓練這一工作之前進行定義。
此外,許多其他工作[17],[34] - [37]也用於解決這個問題。 這些方法通常應用於簡單或小規模的數據集,如MSRA [38]和SIFT-flow [39]。 具體來說,劉等人 [35]提出了一種圖形傳播方法來自動分配圖像級別的注釋標簽到那些上下文導出的語義區域。 徐等人 [34]提出了一個潛在的結構化預測框架,圖形模型編碼是否存在一個類,以及語義標簽的分配超像素。Vezhnevets等 [37]提出了一個最大期望的協議模型選擇准則,該模型選擇准則從語義分割的結構化模型的參數族評估模型的質量。
3 PROPOSED METHOD
圖1展示了所提出的簡單到復雜(STC)框架的體系結構。我們利用最先進的顯著性檢測方法,即區分性區域特征積分(DRFI)[22]來生成簡單圖像的顯著圖。 生成的顯著圖首先用於訓練具有多標記交叉熵損失函數的初始DCNN。 然后提出了簡單到復雜的框架,逐步提高分割DCNN的能力。
Fig. 1. An illustration of the proposed simple to complex (STC) framework. (a) High quality saliency maps of simple images are first generated by DRFI [22] as the supervised foreground/background masks to train the Initial-DCNN using the proposed loss function. (b) Then, a better Enhanced-DCNN is learned, supervised with the segmentation masks predicted by Initial-DCNN. (c) Finally, more masks of complex images are predicted to train a more powerful network, called Powerful-DCNN.
3.1 Initial-DCNN
對於簡單圖片,先通過顯著圖預測出其最顯著的區域。對於每個圖像生成的顯著圖,較大像素值意味着這個像素更可能屬於前景。圖2顯示了一些簡單的例子圖像和相應的顯著圖由DRFI方法生成。可以觀察到,前景像素與語義之間的多個對象存在明顯的相關性。由於每個簡單的圖像伴隨着一個語義標簽,可以很容易推斷出前景候選像素可以分配相應的圖像級標簽。隨后,由一個多標簽交叉熵損失函數來訓練分割網絡,以顯著圖作為監督信息。
Fig. 2. Examples of simple images and the corresponding saliency maps generated by DRFI on the 20 classes of PASCAL VOC.
假設訓練集中有C個類。用OI= {1,2,...,C},OP= {0,1,2,...,C}分別表示圖像級和像素級的類別集標簽,其中0表示背景類。分割網絡由f(•)過濾,其中所有的卷積層過濾給定的圖像I。 f(•)產生一個h*w*(c+1)維的激活輸出,其中h和w分別表示每個通道的特征圖的高度以及寬度。我們利用softmax函數對I中屬於第k類的每一個像素進行計算,其表述如下:
(1)
其中是fkij(I)第k個特征圖中位於(i,j)(1<=i<=h,1<=j<=w)處的激活值,通常情況下,對於在(i,j)處的第l類的顯著圖,將其定義為:
(2)
然后,多標簽交叉熵損失函數被描述如下:
(3)
特別的,對於每一張簡單圖片,假定其中只含有一種語義標簽,又假設簡答圖像數據集I屬於第C類,那么來自顯著圖的歸一化值被認為是屬於類C的每個像素的概率。我們將顯著圖大小調整為與DCNN的輸出特征映射相同的大小。那么公式(3)可以重新表示為:
(4)
poij表示(i,j)處的像素屬於背景的概率。將這個階段學習到的分割網絡表示為Initial-DCNN(簡稱I-DCNN)。
需要指出的是,我們也可以利用SaliencyCut [20]生成基於生成的顯著圖的前景/背景分割掩模。然后,可以使用單標簽交叉熵損失函數進行訓練。我們將這個方案與我們提出的方法進行比較,發現VOC 2012的性能將下降3%。原因是一些顯著性檢測結果是不准確的。因此,直接應用SaliencyCut [20]生成分割掩模將引入許多噪聲,這對訓練I-DCNN是有害的。然而,基於提出的多標簽交叉熵損失,正確的語義標簽仍然有助於優化性能,可以減少低質量顯著圖所帶來的負面影響。
3.2 Simple to Complex Framework
在本節中,通過將更復雜的圖像與圖像級標簽相結合來逐步提高的訓練策略,提高DCNN的分割能力。 基於訓練后的I-DCNN,可以預測圖像的分割掩模,進一步提高DCNN的分割能力。類似於3.1節的定義,我們將位置(i,j)處的第k類的預測概率表示為pkij。然后,通過分割DCNN的位置(i,j)處的像素的估計標記gij可以被描述為:
(5)
3.2.1 Enhanced-DCNN
然而,當用作訓的DCNN作監督時,來自I-DCNN的錯誤預測可能導致語義分割的漂移。 幸運的是,對於訓練集中的每個簡單圖像,給出了圖像級標簽,可以以此來改進預測的分割掩模。 具體而言,如果簡單圖像I用c(c∈OI)標記,則可以將像素的估計標簽重新表示為:
(6)
其中0表示背景類別。 通過這種方式,可以消除訓練集中簡單圖像的一些錯誤預測。然后,利用預測的分割掩模作為監督信息,訓練出一個更強大的分割DCNN,稱為Enhanced-DCNN(簡稱E-DCNN)。 我們利用單標簽交叉熵損失函數對E-DCNN進行訓練,這被全監督方案廣泛使用[11]。
3.2.2 Powerful-DCNN
在這個階段,利用圖像級標簽的復雜圖像,其中包含更多的語義對象和雜亂的背景被用來訓練分割DCNN。與I-DCNN相比,由於大量的預測分割掩碼的使用,E-DCNN具有更強大的語義分割能力。雖然E-DCNN是用簡單的圖像訓練的,但是這些圖像中的語義對象在外觀,尺度和視角方面有很大的變化,這與它們在復雜圖像中的外觀變化是一致的。 因此,我們可以應用E-DCNN來預測復雜圖像的分割掩模。 與公式(5)類似,為了消除錯誤預測,將圖像I的每個像素的估計標簽表示為:
(7)
其中Ω表示每個圖像I的ground-truth語義標簽(包括背景)的集合。我們將在這個階段訓練的分割網絡表示為更強大的DCNN(簡稱P-DCNN)。
在這項工作中,利用兩種交叉熵損失函數來訓練分割網絡。具體來說,全卷積神經網絡中的交叉熵損失是像素級別的。對於全監督,每個像素只能被分配到一個類,相應的交叉熵是單標簽的。這符合E-DCNN和P-DCNN的目標。因此,我們使用單標簽損失函數對這兩個網絡進行訓練。對於訓練I-DCNN,每個像素的類別信息不能被准確地獲得。為了解決這個問題,根據生成的顯著圖和圖像級標簽,每個像素與兩個類(一個是背景,另一個是20個前景類之一)以不同的概率輕微關聯。我們認為這個方案的損失函數是多標簽的信噪比損失。為了說明每個步驟的有效性,圖3中示出了由I-DCNN,EDCNN和P-DCNN生成的一些分割結果。可以看出,基於所提出的簡單到復雜的框架,分割結果逐漸變得更好。
Fig. 3. Examples of segmentation results generated by IDCNN, E-DCNN and P-DCNN on the PASCAL VOC 2012 val set, respectively