How much Position Information Do Convolutional Neural Networks Encode?

本文轉載自查看原文 2020-01-30 17:31 253 reading papers

知乎上看到一篇博客https://zhuanlan.zhihu.com/p/99766566，討論cnn中位置信息是如何學到的，感覺挺有意思的，就看了一下原文，

簡單記錄一下幾個實驗部分。

1、位置信息來自預訓練模型

　作者分別用預訓練權重的vgg,resnet和posenet來對比，發現用了預訓練權重的vgg和resnet提取的位置信息更准確。但這個實驗我

覺得設計的不合理，真正對比實驗應該設計的是，用預訓練權重的vgg，resnet對比隨機初始化的vgg,resnet，而不是和單層的posnet來對比

2、大的卷積核和更多的層數，能獲得更准確的位置信息

更多的層數就不用說了，更大的卷積核也符合light head rcnn中得到的結論的，在某層中使用大的卷積核，效果更好。

3、位置信息存放在那一層

原文分別用5層特征來對比，最后發現越深的特征，結果越准確。

4、位置信息來自哪里

　這篇文章的核心，作者認為來自於padding，並設計了幾組對比實驗（包括檢測分割任務）：加padding的准確率比不加的准確率要高很多。

我的想法

有意思的一篇論文，但只從加不加padding的對比實驗結果好壞，就斷定padding泄露了位置信息，讓人覺得有些奇怪。增加了padding，特征圖的分辨率下降

就沒那么快了，特征也就利用的更充分了，結果更好也在情理之中。總之是一篇想法有意思，但實驗及結論讓人不太信服的論文

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。