SPPNet論文翻譯-空間金字塔池化Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition


http://www.dengfanxin.cn/?p=403

原文地址

我對物體檢測的一篇重要著作SPPNet的論文的主要部分進行了翻譯工作。SPPNet的初衷非常明晰,就是希望網絡對輸入的尺寸更加靈活,分析到卷積網絡對尺寸並沒有要求,固定尺寸的要求完全來源於全連接層部分,因而借助空間金字塔池化的方法來銜接兩者,SPPNet在檢測領域的重要貢獻是避免了R-CNN的變形、重復計算等問題,在效果不衰減的情況下,大幅提高了識別速度。
 

用於視覺識別的深度卷積網絡空間金字塔池化方法

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun
 

摘要

當前深度卷積神經網絡(CNNs)都需要輸入的圖像尺寸固定(比如224×224)。這種人為的需要導致面對任意尺寸和比例的圖像或子圖像時降低識別的精度。本文中,我們給網絡配上一個叫做“空間金字塔池化”(spatial pyramid pooling,)的池化策略以消除上述限制。這個我們稱之為SPP-net的網絡結構能夠產生固定大小的表示(representation)而不關心輸入圖像的尺寸或比例。金字塔池化對物體的形變十分魯棒。由於諸多優點,SPP-net可以普遍幫助改進各類基於CNN的圖像分類方法。在ImageNet2012數據集上,SPP-net將各種CNN架構的精度都大幅提升,盡管這些架構有着各自不同的設計。在PASCAL VOC 2007和Caltech101數據集上,SPP-net使用單一全圖像表示在沒有調優的情況下都達到了最好成績。SPP-net在物體檢測上也表現突出。使用SPP-net,只需要從整張圖片計算一次特征圖(feature map),然后對任意尺寸的區域(子圖像)進行特征池化以產生一個固定尺寸的表示用於訓練檢測器。這個方法避免了反復計算卷積特征。在處理測試圖像時,我們的方法在VOC2007數據集上,達到相同或更好的性能情況下,比R-CNN方法快24-102倍。在ImageNet大規模視覺識別任務挑戰(ILSVRC)2014上,我們的方法在物體檢測上排名第2,在物體分類上排名第3,參賽的總共有38個組。本文也介紹了為了這個比賽所作的一些改進。
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM