Context Encoding for Semantic Segmentation 論文准備


殘差編碼:

Fisher Vector

https://blog.csdn.net/ikerpeng/article/details/41644197

 

VLAD特征

 https://blog.csdn.net/happyer88/article/details/47054503

 

深度紋理編碼網絡 (Deep TEN: Texture Encoding Network)

語言: English

這是一篇CVPR2017的投稿 (ArXiv的鏈接:)在這里給大家介紹一下這部分的工作,不像寫論文那樣用詞嚴謹,這里簡單介紹一下核心思想,方便大家閱讀。(我個人是來到美國之后才接觸科研,文中學術名詞的漢語表述有不當之處還請諒解。)

我們提出了一個新的深度學習模型,這個模型推廣了傳統的字典學習 (dictionary learning) 和殘差編碼 (Residual Encoders),比如 VLAD 和 Fisher Vector。提出的編碼層 (Encoding Layer) 和已有的深度學習結構兼容,實現了端對端的材料識別 (End-to-end),並且取得了不錯的效果。

這個方法主要是受到傳統方法的啟發:對於輸入的圖片,我們通常先提取圖像特征(比如SIFT 或者是 filterbank responses),之后一個字典可以通過非監督式的聚類得到,這樣我們可以對已有的圖片特征進行編碼(材料識別中通常使用一些無序的編碼器,比如BoWs,VLAD),並使用分類器進行分類。傳統方法有以下兩個特點:1. 輸入圖片可以為任意大小,編碼器可以轉化為一個固定長度的表達。2. 特征本身是通用的(domain-independent),字典和編碼表達通常挾帶了域信息(domain-specific information)。

受到傳統方法的啟發(左圖),Cimpoiet. al. CVPR 2015 使用了預訓練的神經網絡的卷積層提取了深度特征,並且使用了 Fisher Vector 編碼器,刷新了當時的state-of-the-art(中圖)。但是這種方法仍然有局限性,因為它包含了許多分步的優化,這樣特征提取(卷積層),字典學習和編碼器不能夠從標識的數據(labeled data)中得到進一步優化。理想的方法是如右圖,將整個字典學習和編碼整合到一個CNN網絡層中,使它與已有的深度學習體系兼容,這樣以來就實現了端對端的學習優化。

方法部分有一些tricky,我們主要是提出了個數學模型 (Residual Encoding Model),推廣了已有的編碼器 (VLAD, Fisher Vector),並且使得整個系統是可微分的,這樣我們就可以像已有的深度學習層一樣,從loss function中學習到參數。也就是說它實現了監督式的字典學習(supervised dictionary learning)。這個模型有很多特性,它使得CNN網絡可以接受任意大小的圖片,並且因為字典學習和表達容易攜帶Domain信息,這樣學習到的深度特征就更加容易應用於其他domain。

這個模型有很多可以應用的地方,除了文中提到的材料/紋理識別以外,因為它推廣了VLAD和Fisher Vector,那么可以期待它在Robust Recognition中的應用前景(比如場景識別scene understanding),還有圖像檢索(image retrieval) 等等。歡迎大家多關注我的工作,而且我們提供基於Torch的代碼(zhanghang1989/Deep-Encoding)。我個人現在在做visualize 和 inverse 這個編碼網絡,歡迎多交流 (RemoveThisifYouAreHuman~zhang.hang@rutgers.edu)。

 

參考:機器視覺:GMM、fisher vector、SIFT與HOG特征資料

 

圖像檢索:BoW圖像檢索原理與實戰

 

Context Encoding for Semantic Segmentation

https://blog.csdn.net/u013548568/article/details/80223804

https://blog.csdn.net/u011974639/article/details/79806893

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM