Context Encoders: Feature Learning by Inpainting


論文來源:2016 CVPR

(1)所解決問題

通過基於上下文像素預測驅動的無監督的視覺特征的學習算法,利用周圍的圖像信息來推斷缺失的圖像

本文的上下文編碼器需要解決一個困難的任務:填補圖像中大量缺失的區域,而這些區域無法從附近的像素中獲得“提示”。

(2)所構建網絡

主要思路:

主要思路是結合Encoder-Decoder 網絡結構和 GAN (Generative Adversarial Networks),Encoder-Decoder 階段用於學習圖像特征和生成圖像待修補區域對應的預測圖,GAN部分用於判斷預測圖來自訓練集和預測集的可能性,當生成的預測圖與GroundTruth在圖像內容上達到一致,並且GAN的判別器無法判斷預測圖是否來自訓練集或預測集時,就認為網絡模型參數達到了最優狀態

33okge.png

33oF3D.png

網絡訓練的過程中損失函數都由兩部分組成:Encoder-decoder 部分的圖像內容約束(Reconstruction Loss)GAN部分的對抗損失(Adversarial Loss)。Context Encoders 采用最簡單的整體內容約束,也就是預測圖與原圖的l2 距離。

(3)評價指標

文章使用來自兩個數據集的圖像進行實驗:不使用任何附帶的標簽的Paris StreetView和ImageNet。

33oi9O.png

33oC4K.png

文章從兩個方面顯示了其優越性,一方面為上下文編碼器在填充缺失區域的能力,另一方面使用上下文編碼器作為圖像分類、目標檢測和語義分割的前訓練步驟,演示了其學習到的特征可以轉移到其他任務。文章將這些任務的結果與其他無監督或自監督方法的結果進行比較,證明其方法優於以前的方法。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM