知乎上看到一篇博客https://zhuanlan.zhihu.com/p/99766566,討論cnn中位置信息是如何學到的,感覺挺有意思的,就看了一下原文,
簡單記錄一下幾個實驗部分。
1、位置信息來自預訓練模型
作者分別用預訓練權重的vgg,resnet和posenet來對比,發現用了預訓練權重的vgg和resnet提取的位置信息更准確。但這個實驗我
覺得設計的不合理,真正對比實驗應該設計的是,用預訓練權重的vgg,resnet對比隨機初始化的vgg,resnet,而不是和單層的posnet來對比
2、大的卷積核和更多的層數,能獲得更准確的位置信息
更多的層數就不用說了,更大的卷積核也符合light head rcnn中得到的結論的,在某層中使用大的卷積核,效果更好。
3、位置信息存放在那一層
原文分別用5層特征來對比,最后發現越深的特征,結果越准確。
4、位置信息來自哪里
這篇文章的核心,作者認為來自於padding,並設計了幾組對比實驗(包括檢測分割任務):加padding的准確率比不加的准確率要高很多。
我的想法
有意思的一篇論文,但只從加不加padding的對比實驗結果好壞,就斷定padding泄露了位置信息,讓人覺得有些奇怪。增加了padding,特征圖的分辨率下降
就沒那么快了,特征也就利用的更充分了,結果更好也在情理之中。總之是一篇想法有意思,但實驗及結論讓人不太信服的論文
