論文閱讀 | A Curriculum Domain Adaptation Approach to the Semantic Segmentation of Urban Scenes


paper鏈接:https://arxiv.org/pdf/1812.09953.pdf

code鏈接:https://github.com/YangZhang4065/AdaptationSeg

摘要

在過去的5年里面,卷積神經網絡在語義分割領域大獲全勝,語義分割是許多其他應用的核心任務之一,這其中包括無人駕駛、增強現實。然而,訓練一個卷積神經網絡需要大量的數據,而對於這些數據的收集和標注是極其困難的。計算機圖形學領域的最新研究進展使得利用計算機生成的注釋在接近真實照片的合成圖像上訓練CNN成為可能。盡管如此,真實圖像和合成數據之間的域不匹配阻礙了模型的性能。鑒於此,我們提出了一種課程式( curriculum-style )學習方法,以最小化城市場景語義分割中的域差距。課程域適應方法首先解決簡單的任務,以推斷關於目標域的必要屬性; 第一項任務學習圖像上的全局標簽分布和地標超像素( landmark superpixels),這些很容易估計,因為城市場景的圖像具有強烈的特性(例如,建築物,街道,汽車等的大小和空間關系)。然后,我們訓練分段網絡,同時在目標域中規范其預測以遵循那些推斷的屬性。在實驗中,我們的方法優於兩個數據集和兩個骨干網絡的baseline。 文章還報告了有關我們所提方法的大量消融研究。

1、Introduction

語義分割是計算機視覺領域最具挑戰性也最基礎的問題之一。它為一幅圖像的每個像素分配語義標簽。其輸出結果是針對圖像的一個密集而豐富的注釋,每一個像素都有一個屬於自己的語義標簽。語義分割對一些下游應用很有幫助,在無人駕駛方面取得了重大進展。實際上,已經開發了幾種用於自動駕駛研究的數據集和測試套件,其中,語義分割通常被認為是關鍵任務之一。

在過去的幾年中,卷積神經網絡已經成為解決大規模圖像集的語義分割問題的一個標志性主干模式。所有的最先進方法都依賴於卷積神經網絡。卷積神經網絡能夠取得很高准確率的原因在於,訓練集足夠大且每幅圖片均被良好的標注。然而,在實際應用中的現實生活場景中,想要獲取滿足這些要求的數據集是十分困難的。即使能夠得到如此大的數據集,對每幅圖進行逐像素的語義標注也是枯燥而困難的。例如,在 Cityscapes數據集中,平均一幅圖片的像素級標注耗時1.5小時,其工作量可想而知。

這些挑戰促使研究人員通過使用補充合成數據來應對這一分割問題。使用現代圖形引擎,自動合成多樣化的城市場景圖像以及像素標簽將需要非常少量的甚至零人工操作。但是,它並不能完全達到與真實數據一樣的效果,甚至在合成圖像和真實圖像之間會出現嚴重的不匹配問題。導致不匹配的因素有很多,例如場景布局、獲取圖像的設備、觀察視角、光照條件、陰影、紋理等等。

本文中,我們的主要目標是研究域自適應技術的使用,以更有效地將使用合成圖像訓練的語義分割網絡轉移到用於真實圖像的高質量分割網絡。我們在之前的工作[11]的基礎上進行改進,之前的那篇工作我們提出了一種新的域適應方法來進行城市場景的語義分割。

域適應,旨在當感興趣的目標域不同於模型訓練的域時提高模型的性能,長期以來一直是機器學習和計算機視覺領域的熱門話題。由於深度神經網絡的普遍存在,它最近甚至引起了更多的關注乃至於遷移學習,而這些網絡通常是“數據飢餓”的。直觀的域自適應策略是學習兩個域的圖像的域不變特征表示,其中源域提供標記的訓練集,目標域在眾多未標記是圖像中顯示零到若干標記圖像。在這種情況下,源域特征將類似於目標域的特征。因此,在標記的源域上訓練的模型可以推廣到目標域。早期的“淺層”方法通過利用數據的各種內在結構來實現這些目標。與之相反,最近的“深層”方法則主要設計新的損失函數和/或網絡結構,以向通過神經網絡反向傳播的梯度添加域不變成分。

在觀察到先前域自適應任務中學習域不變特征的成功之后,遵循相同的原則來適應語義分割模型變成了普遍的趨勢。然而,該原理的基本假設可能阻止圍繞它設計的方法實現高適應性能。通過學習域不變特征X(假定條件分布P(Y|X),其中Y表示像素標簽),多多少少被兩個域所共享。當分類邊界變得越來越復雜時,該假設不太可能成立 - 用於語義分割的預測函數必定是復雜的。像素標簽集是高維的,高度結構化的和相互依賴的,這意味着學習者必須在指數大的標簽空間中解決預測問題。此外,如果不仔細考慮結構化標簽而匹配兩個域的特征表示,那么數據中的一些判別性提示將被抑制。最后,數據實例是衡量域差異的替代品。然而,目前尚不清楚語義分割中所包含實例的內容,特別是考慮到最佳表現的分割方法是建立在深度神經網絡上的。霍夫曼將全卷積網絡(FCN)中的每個空間單元作為實例。我們認為這樣的實例實際上是非獨立同分布的( non-i.i.d)。因為在任何一個域中,它們的感受野(感受野:在卷積神經網絡CNN中,決定某一層輸出結果中一個元素所對應的輸入層的區域大小,被稱作感受野receptive field。)彼此重疊。

那么,我們如何避免源域和目標域在轉換的域不變特征空間中共享相同的預測函數這一假設呢?我們提出的解決方案基於兩個關鍵的觀察。其一,城市交通場景圖像具有很強的特質,因此,由於域差異而受到的影響較小,一些任務實現起來比較簡單。例如,很容易從交通場景圖像推斷出道路經常占據比交通標志更多的像素。其二,與模型參數上的通用正則化相反,語義分割中的結構化輸出使得實現便利的后驗正則化成為可能。

因此,我們提出了一種課程式( curriculum-style )的學習方法。回顧一下,在域適應方法中,當目標域幾乎沒有或只有稀少的標簽時,唯有源域能夠提供大量已被標注好的數據。我們的課程式域適應始於簡單的方法,目的在於為每一個目標圖片取得若干關於未知像素級標簽的高質量屬性。

為了進一步發展課程的簡單任務,我們考慮在全局圖像和目標域的一些標志性超像素上估計標簽分布。以前者為例,標簽分布揭示了圖像中與每個類別對應的像素百分比。盡管存在域不匹配的問題,我們仍然認為,這些任務比預測像素標簽更容易。標簽分布僅是關於標簽統計數據的粗略估計。此外,道路,建築物,天空,人等之間的大小關系約束了分布的形狀,有效地減少了搜索空間。最后,用於估計超像素標簽分布的模型或受益於城市場景超越領域的規范布局,例如,建築常常分布於街道兩邊。

這些似乎簡單的標簽分布對語義分割的域適應有用,那么是何原因,又是何時起作用的呢?在實驗中,我們發現在源域上訓練得到的分割網絡在許多目標圖片上表現並不好,這引起了不成比例的標簽分配,例如,更多像素被分類為人行道而不是街道。為修正這一問題,圖像級別的標簽分布通知分段網絡如何更新預測,而錨超像素( anchor superpixels)的標簽分布告訴網絡更新的位置。它們共同指導網絡適應目標域,生成合理的標簽預測。請注意,將來可以將其他“簡單任務”納入我們的方法中。

我們的主要貢獻在於提出了針對城市場景的課程式的域適應方法。我們為課程選擇了推斷目標圖像和地標超像素的標簽分布的簡單有用的任務,以獲得關於目標域的一些必要屬性。基於以上這些,我們從已被標注好的源數據中學習到了一個像素級的判別分割網絡,與此同時,我們進行“健全性檢查”以確保網絡表現與先前學習的關於目標域的知識一致。我們的方法有效地避免了關於在變換的特征空間中存在兩個域的共同預測函數的假設。它也容易應用於不同的分割網絡,因為它並不會改變網絡架構,也不會影響任何的中間層。

除了我們先前的工作[11],我們提供了更多關於所提方法的算法細節和實驗研究,包括使用GTA數據集的新實驗以及關於超像素數量,超像素特征表示,各種主干神經網絡,預測混淆矩陣等的消融研究。此外,我們在我們的框架中引入了顏色恆常性方案,這顯着提高了自適應性能,並且可以作為獨立的圖像預處理步驟加入到任何域自適應方法中。我們還定量地測量合成數據的“市場價值(market value)”,以揭示它可以從實際圖像的標簽中節省多少成本。最后,我們提供了一個關於我們提出的成果[11]之后發表的關於語義分割領域適應性的著作的綜合調查。我們將它們分組為不同的類別,並且通過實驗證明其他方法是我們方法的補充。

2、Related work

在這一部分,我們主要討論了域適應和語義分割方面的相關工作。第5部分提供了用於語義分割的域適應方法的更具針對性的綜述,以及其他方法和我們方法中不同類別之間的互補效應的實驗研究。

2.1  域適應(Domain adaptation)

卷積機器學習算法依賴於訓練數據和測試數據被刻畫為來自同一基礎分布的獨立同分布這一假設。然而,通常情況是訓練和測試階段之間存在一些差異。域適應旨在修正這些不匹配,並且在測試階段精調算法模型,使之具有更優的泛化能力。

目前的域適應方面的工作大多集中在分類和回歸問題上。

2.2 語義分割

語義分割,即為一幅圖的每個像素分配目標標簽類別。

3、Approach

該部分,我們展示了我們的課程領域適應方法的細節,用於城市場景圖像的語義分割。之前的一些工作,通過中間特征空間對齊域並由此隱含地假設存在兩個域的單個決策函數,我們的直覺是,對於結構化預測(即,這里的語義分割),如果我們避免這種假設,而是根據他們應該保留在目標域中的必要屬性來訓練它們,則可以更有效地改進機器學習模型的跨域泛化能力。針對准備工作簡潔的介紹之后,我們將介紹如何使用估計的目標域屬性來促進訓練期間的語義分割自適應。接着,我們會將目光集中於目標域屬性的類別以及如何估計它們。

3.1  准備工作(Preliminaries)

特別地,感興趣的屬性涉及來自目標域的任意圖像的像素級類別標簽,其中W、H分別表示輸入圖片的寬和高,C為類別個數。我們對groundtruth標簽使用one-hot vector編碼,比如,Yt (i,j,c)取值非0即1,字母意思為,第c個標簽由人類標注者分配給(i,j)處的像素。相應的,通過一個分割網絡之后的預測值通過逐像素的softmax函數來實現。

我們以類別C的分布pt的形式表達每個目標屬性,其中,,且。pt(c)表示類別c相對於第t個目標圖像或該圖像的超像素的占有率。因此,我們可以在給定圖像的人工注釋Yt的情況下立即計算出分布pt。例如,圖像級標簽分布由下面公式(1)計算:

類似的,我們可以計算估計出來自網絡預測值的目標屬性或者分布,並且通過來表示目標屬性或者分布,見下面公式(2):

其中K> 1是一個大常數,其效果是“銳化”每個像素的softmax激活函數,使得summand(被加數)為1或非常接近0,其形狀與式(1)的summad相似。在實驗中,我們設置K值為6,因為較大的K值會導致數值不穩定。最后,我們正則化向量,這樣以來,它的元素都大於0並且總和為1——換句話說,向量保持在有效的分布狀態。

3.2 域自適應觀察目標屬性

理想情況下,我們希望有一個分割網絡來模仿目標域的人類注釋器。 因此,其注釋結果屬性也必然應該相同。我們通過在訓練階段最小化一個交叉熵來捕捉這一概念,下面等式中,右邊第一項是熵,第二項是KL-散度:

給定由源圖像(S)和目標圖像(T)組成的 mini-batch,用於訓練跨域概泛化分割網絡的總體目標函數是

其中,是由全部標注的源域圖像的像素級交叉熵損失,賦予網絡以像素級的判別能力,第二項是未標記的目標域圖像,指示網絡預測應該在目標域中具有哪些必要的屬性。我們使用來平衡訓練中的兩股力量。上標k用於索引不同類型的標簽分布。

請注意,在無監督域自適應上下文中,我們實際上無法直接計算標簽分布,因為目標域的groundtruth注釋是未知的。 盡管如此,使用標記的源域數據,這些分布比目標圖像的每個像素的標簽更容易估計。

Remarks.從數學上說,目標函數和模型壓縮具有相似的形式。因此,我們借用更多的概念,以對我們的域適應過程進行更加直觀的解讀和理解。“學生”網絡遵循課程,以便在解決目標域的簡單知識之前解決語義分割圖像的難度。 推斷目標屬性的模型就像“教師”一樣,因為它們暗示了最終解決方案(圖像注釋)在圖像和超像素級別的目標域中可能具有的標簽分布。

另一視角是將目標屬性理解為網絡的后正則化。后正則化可以將先驗知識方便的解碼為目標函數。一些應用會使用這一方法,包括弱監督分割和檢測,神經網絡的ReLU正則化訓練。除了域適應設置和新的目標屬性之外,我們工作的另一個關鍵區別是我們將標簽分布與網絡預測分離,從而避免EM類型的優化,這通常涉及並且引起額外的計算開銷。 我們的方法通過對流行的深度學習工具進行幾乎毫不費力的改變來學習分割網絡。

3.3 推測目標屬性

到目前為止,我們已經在課程領域適應中提出了“困難”任務 - 學習分割神經網絡。在這一部分,我們將描述“簡單”任務,比如,如何在沒有任何來自目標域的標注的情況下推測目標域的屬性。我們的貢獻也包括選擇標簽分布的特定形式來組成簡單的任務。

3.3.1 圖像的全局標簽分布

由於域差距,可以訓練源域上的基線分割網絡,由於目標圖像的原因,它可能很容易癱瘓。通過實驗,我們發現,我們的基線網絡不斷誤識別人行道和汽車行駛街道。因此,對於像素的預測標簽是極度不匹配的。

為修正之,我們使用全局圖像上的標簽分布pt作為首要屬性。在不訪問目標標簽的情況下,我們必須從標記的源圖像訓練機器學習模型以估計目標圖像的標簽分布p t。我們認為盡管兩個任務都受到域不匹配的影響,但這並不比生成每像素預測更具挑戰性。

在實驗中,我們考察了這一任務上的若干不同方法。從Inception-Resnet-v2中的平均池化層的輸出中提取1536D圖像特征作為以下模型的輸入。

Logistic regression.盡管多項邏輯回歸(LR)主要用於分類,但其輸出實際上是類別上的有效分布。我們通過用交叉熵損失中的one-hot矢量替換groundtruth標簽分布p s來訓練它,其通過公式(1)計算來自源域的人供標注。給定目標圖像,我們直接將LR的輸出作為估計的標簽分布p t

Mean of nearest neighbors.我們還通過簡單地為每個目標圖像檢索多個最近鄰(NN)源圖像然后將其標簽分布的均值傳送到目標圖像來測試非參數方法。我們在Inception-Resnet-v2特征空間中使用L2距離進行NN檢索。

最后,我們將兩個模糊的預測作為對照實驗。 一個是,對於任何目標圖像,輸出源域中所有標簽分布的均值(源均值),另一個是輸出均勻分布。

3.3.2 界標超像素( landmark superpixels)的局部標簽分布

在全局域中,圖像級標簽分布全局懲罰潛在的不成比例的分割輸出。在向網絡提供空間正規化方面尚不充分。在本節中,我們考慮在某些超像素上使用標簽分布作為驅動網絡朝向空間所需目標屬性的錨點。

請注意,使用目標圖像中的所有超像素來規范分割網絡是不必要的,甚至是有害的,因為它太強大並且可能會否決像素方面的判別性(從完全標記的源獲得域名),特別是當標簽分布沒有足夠准確推斷時。

為了具有估計某些超像素的標簽分布並從所有候選超像素中選擇它們的雙重效果,我們使用線性SVM。首先使用線性光譜聚類將每個圖像分割成100個超像素。對於源域的超像素,能夠為它們中的每一個分配單個主導標簽,然后使用源域的“標記”超像素訓練多類SVM。給定目標圖像的測試超像素,多類SVM返回類標簽以及決策值,其被解釋為關於對該超像素進行分類的置信度得分。在目標域中保留前30%最有信心的超像素。 然后將類標簽編碼成one-hot矢量,其用作關於所選地標超像素區域上的類別標簽的有效分布。雖然簡單,但我們發現這種方法非常有效。

為了訓練上述超像素SVM,我們需要找到一種在特征空間中表示超像素的方法。我們對視覺和上下文信息進行編碼以表示超像素。首先,我們使用在PASCAL CONTEXT數據集上預訓練的FCN-8,該數據集具有59個不同的類別,以獲得每個像素的59個檢測分數。然后我們在每個超像素內平均這些分數。超像素的最終特征表示是其自身的59D向量,是其左右超像素的295D級聯,以及分別在其上方和下方的兩個向量表示。由於此功能表示依賴於額外的數據源,我們還在實驗中檢查人工實現的功能和VGG功能。

3.4 課程域適應:概述(recapitulation)

在下一節介紹實驗之前,我們使用圖1概述了擬議的課程領域適應性。 我們的主要想法是逐步執行域自適應,從簡單的任務開始,與語義分段相比,對域差異不太敏感。 我們在這項工作中選擇了全局圖像和局部地標超像素的標簽分布; 未來將探索更多任務。 它們的解決方案提供了源自目標域的有用漸變(參見圖1中的棕色箭頭),而源域為網絡提供了帶有良好標記的圖像和分割掩模(參見圖1中的深藍色箭頭)。

3.5 顏色一致性

在本小節中,我們提出了一個顏色校准預處理步驟,我們發現這一步驟非常有效地使語義分割方法從源合成域適應目標實際圖像域。假設兩個域的顏色是從不同的分布中提取的。將目標域圖像的顏色校准為源域的顏色,從而減少它們在顏色方面的差異。在這里將其描述為一個獨立的子部分,因為它可以獨立存在,並且可以添加到任何現有的語義分割域適應方法中。

人類有能力感知物體的相同顏色,即使它在不同的照明下曝光,但圖像捕捉傳感器卻沒有。所以,不同的照明條件會導致由相機捕獲不同的RGB圖像。因此,感知不連貫性阻礙了計算機視覺算法的性能,因為照明通常是導致域不匹配的關鍵因素之一。為此,我們建議使用計算顏色連續性來消除照明的影響。

顏色連續的目標是將在非常規或偏置光源下獲得的圖像的顏色校正為在參考光照條件下應該呈現的顏色。在域自適應場景中,我們假設源域類似於參考光照條件。通過學習參數模型來描述目標和源光源,然后嘗試根據源域的光恢復目標圖像。然而,並非所有顏色連續性方法都適用。例如,一些方法依賴於物理先驗或自然圖像的統計,此二種方法在合成圖像中都不可用。

綜上所述,我們改為使用基於色域的顏色連續性方法來根據顏色對齊目標和源圖像。該方法假設在某個光源下僅能觀察到有限范圍的顏色的,繼而推斷出光源的特性。這符合我們的假設,即目標圖像的顏色和源圖像的顏色屬於不同的分布/范圍。除了像素值之外,圖像邊緣和導數還用於查找映射。圖2顯示了分割模型對照明的敏感程度。可以看到,在應用顏色連續性之前,CityScapes圖像的很大一部分被錯誤地歸類為“地形”,因為圖像有點偏綠。

6、Conclusion

在本文中,我們提出了一種課程領域適應方法,用於城市場景的語義分割。學習估計目標圖像上的全局標簽分布和目標圖像的超像素上的局部標簽分布。這些任務比逐像素標簽分配更容易解決。然后,使用他們的結果有效地規范語義分割網絡的訓練,使得它們的像素預測與全局和局部標簽分布一致。通過從合成圖像的源域調整到真實圖像的目標域來驗證所提方法的有效性。算法性能優於幾個此外,我們報告了幾項關鍵的消融研究,這些研究使我們能夠獲得有關所提方法的更多認識。我們還檢查了分類混淆矩陣,發現當前數據集中的某些類(例如,火車和公共汽車)幾乎無法區分,這表明需要更好的模擬或更多標記的實例以獲得更好的分割結果。在未來的工作中,我們將探索具有與全局和局部標簽分布相同形式的更多目標屬性 - 它們比像素標簽預測更容易解決,同時可以作為像素標簽的函數編寫。我們還計划研究將域適配框架直接應用於DeepGTAV和AirSim等虛擬自動駕駛環境的可能性。

[11] Y. Zhang, P. David, and B. Gong, “Curriculum domain adaptation for semantic segmentation of urban scenes,” in IEEE International Conference on Computer Vision (ICCV), vol. 2, no. 5, Oct 2017, p. 6.

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM