論文閱讀|Learning to Measure Changes: Fully Convolutional Siamese Metric Networks for Scene Change Detection


原文標題:Learning to Measure Changes: Fully Convolutional Siamese Metric Networks for Scene Change Detection

論文鏈接:http://arxiv.org/abs/1810.09111

abstract

場景變化檢測的困難之處由場景明暗變化,陰影以及相機視點不同而導致的噪聲變化很難去衡量,因為噪聲變化和語義的變化交織在一起。從最直觀的角度出發,直接比較圖中特征差異。使用對比損失降低未變化特征對的距離和增大變化特征對的距離,又提出了閾值對比損失來解決視點大幅度變化所造成的問題。源碼:https://github.com/gmayday1997/ChangeDet

introduction

state-of-the-art 的方法基本都基於FCN,基於fcn的模型通過學習具有最好檢測效果的決策邊界來檢測變化。為了區分語義邊和噪聲變化,一種可行的辦法是提出一種指標可以衡量變化的差異,對語義變化產生較大的值,而對噪聲變化產生較小的值。深度度量學習的核心思想是減少類內差異,而增大類間差異。論文主要包含兩部分:一提取特征,二用預定義的距離函數求特征對的距離。

主要貢獻:一、提出第一個解決多種問題的框架結構;二、提出了閾值對比損失 Thresholded Contrastive Loss (TCL)來克服大幅度視點變化問題;三、達到了state-of-the-art;四、將距離度量整合進基於fcn的baseline。

最傳統的方法就是通過一個閾值直接找圖像中有明顯差異的像素,計算成本低,但區分性差。還有就是手工設計特征的方法,如 image rationing, change vector analysis, Markov random field, and dictionarylearning。state-of-the-art的方法基於FCN,都是在學習邊界決策來CD。作者的想法是基於另一篇論文,這篇論文通過距離度量變化的,但區分力不夠。Change detection based on deep siamese convolutional network for optical aerialimages 這篇論文和本論文很相似,但作者提出的是一個end-to-end的方法來解決多種問題。

proposed approach

基本框架如上,通過全卷積孿生網絡來提取特征對,然后用歐式距離或余弦相似性作為距離度量,作者將特征對提取以及度量距離這一個統一的過程稱為隱式度量。使用對比損失來優化使changed pair有較大的距離值,Unchanged pair有較小的距離值,使用閾值對比損失解決大幅度視點變化問題。

將變化看成是一種不相似性,用一種不相似性函數來度量。這個函數包括兩部分:特征描述符 和 距離度量。特征描述符其實就是經過孿生網絡得到的特征對,網絡的backbone可以使用Googlenet或者DeepLab都可以。距離度量是作者設計的閾值對比損失函數,並與歐式距離度量和余弦相似度度量做了實驗比較。

上圖是ContrastiveLoss利用了用歐式距離,\(y_i,j = 1\)表示在這個位置沒有變化,\(D(f_i, f_j)\)表示 \(f_i\)\(f_j\)特征向量的歐式距離,\(m\)為距離的最大值

上圖CosLoss利用了余弦相似性,\(D_k\)是余弦相似性,\(W_k\)\(b_k\) 是可學習到的縮放和移動參數

上面的損失函數存在效果不好以及收斂緩慢的缺點,作者認為存在着一對矛盾:一方面,由於大視角的變化導致激活了更多不相關的信息,那些沒有變化的區域會被認為是有變化的,還有就是變化與未變化的信息交織在一起;另一方面,本來沒有變化的區域由於視點差異而產生了變化,所以在優化的時候對應的距離就會隨着訓練而減小至0,有一個減小的趨勢,而這種趨勢確實會產生我們想要的結果。但關鍵問題在於,這種減小的趨勢不可能使特征對的語義距離減小至0,因此作者提出了TCL損失

這個定義表明沒有必要將距離最小化到0,給距離度量一個容差。為了證明這個損失的有效性,作者在CD2014上做了對比實驗

訓練策略采用MultiLayer Side-Output (MLSO)的方法,這種方法基於兩種觀點:(1)在反向傳播中梯度傳遞到中間層有可能消失,這會導致中間層的特征不具有區分能力;(2)上層特征的表示能力很依賴於中間層特征的區分能力。

在圖中所示的層中分別輸出特征對,計算特征對距離,與ground truth求\(loss_h\),然后根據公式計算最終損失\(Loss\)\(\beta_h\)是相應的權重。在預測階段,對不同的層采用了不同的置信閾值,最終預測結果為各個層的輸出取平均。

experimental and discuss

數據集:VL-CMU-CD Dataset [PCD2015 Dataset]( http://www.vision.is.tohoku.ac.jp/us/research/4dcity modeling/pano cd dataset/) CDnet Dataset Evaluation on CDnet

1.MLSO訓練策略確實能夠提升效果;2.歐式距離的表現比余弦相似度的效果更好

在第三個數據集上的比較,作者的方法達到了具有競爭力的表現,但有一些指標存在不足。一方面是state-of-the-art的方法采用了語義分割的方法一定程度上改變了任務。我理解的是因為語義分割方法擅長區分前景和背景,語義分割只是分割出了我們所需要的前景目標,實際上網絡可能並不知道在某塊區域到底有沒有變化,只是經過訓練就能夠分割出變化的目標,因此也就不受視角變化的影響了。另一方面,作者的方法實際是一個圖像差值的方法,在精度方面與語義分割方法必然存在一定差距,語義分割本身就是一個像素級別的分類的問題。

discussion

討論了三個問題:(1)是否提出的網絡模型對於大視角變化具有魯棒性?(2)模型表現是否對於閾值是敏感的?(3)利用對比損失來增強度量學習的方法是否真的能學習到更多具有區分能力的特征?

對於第一個問題,小視角和大視角的變化。采用了TCL損失函數,\(thread = 0\)就是對比損失,0.1時效果最好

對於第二個問題,上面已經可以知道模型易受閾值的影響,因此需要最大化前景變化和背景變化的對比,對不同的距離函數做了對比,采用RMS均方值對比,應該就是特征對求距離后的圖像的均方值

1570427791917

結果表明歐式距離產生的圖像具有較大的對比度,因此歐式距離更有能力區分背景變化;深層特征帶有豐富的語義信息,從圖中得出區分能力強的特征魯棒性就更好

對於第三個問題,作者將對比損度量學習的方法運用於FCN,采用交叉熵損失\(Loss_class\)和對比損失\(Loss_feat\),結果表明有較小的提升

1570427831773


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM