論文來源:2016 CVPR
(1)所解決問題
通過基於上下文像素預測驅動的無監督的視覺特征的學習算法,利用周圍的圖像信息來推斷缺失的圖像
本文的上下文編碼器需要解決一個困難的任務:填補圖像中大量缺失的區域,而這些區域無法從附近的像素中獲得“提示”。
(2)所構建網絡
主要思路:
主要思路是結合Encoder-Decoder 網絡結構和 GAN (Generative Adversarial Networks),Encoder-Decoder 階段用於學習圖像特征和生成圖像待修補區域對應的預測圖,GAN部分用於判斷預測圖來自訓練集和預測集的可能性,當生成的預測圖與GroundTruth在圖像內容上達到一致,並且GAN的判別器無法判斷預測圖是否來自訓練集或預測集時,就認為網絡模型參數達到了最優狀態
網絡訓練的過程中損失函數都由兩部分組成:Encoder-decoder 部分的圖像內容約束(Reconstruction Loss)GAN部分的對抗損失(Adversarial Loss)。Context Encoders 采用最簡單的整體內容約束,也就是預測圖與原圖的l2 距離。
(3)評價指標
文章使用來自兩個數據集的圖像進行實驗:不使用任何附帶的標簽的Paris StreetView和ImageNet。
文章從兩個方面顯示了其優越性,一方面為上下文編碼器在填充缺失區域的能力,另一方面使用上下文編碼器作為圖像分類、目標檢測和語義分割的前訓練步驟,演示了其學習到的特征可以轉移到其他任務。文章將這些任務的結果與其他無監督或自監督方法的結果進行比較,證明其方法優於以前的方法。