論文閱讀筆記(四十六)【CVPR2018、BMVC2019】:Non-local 的應用


Non-local neural networks(CVPR2018)

傳統的卷積神經網絡的感受野相對較小,比如3*3、5*5,但對於注意力機制而言,需要更大的感受野來獲取全局的注意力得分,Nonlocal的目的就是計算全局感受野的注意力。Nonlocal的計算由相似度計算函數 f 和映射函數 g 組成,g 采用1x1卷積實現。可以理解為計算某一個node的全局的相似度映射,再與該node的映射相乘。【參考Gapeng知乎文章:傳送門

最終采用殘差網絡的形式作為一個block插入到網絡結構中:

 

Spatially and Temporally Efficient Non-local Attention Network for Video-based Person Re-Identification(BMVC2019)

本文的思路是將nonlocal模塊嵌入到resnet50的結構中,提出了Non-local Video Attention Network(NVAN),在MARS數據集上的rank1達到了90%,但同時引入了很大的計算量,實用性較差。為了降低計算量,作者改進了NVAN,提出了Spatially and Temporally Efficient Non-local Video Attention Network(STE-NVAN),降低了72.7%的計算量,同時只降低了1.1%的准確率。

(1)NVAN的網絡結構如下,其中Nonlocal模塊采用了高斯映射。提取得到特征映射后,采用3D平均池化層(3DAP)在時空維度進行特征融合,獲得特征向量。

(2)STE-NVAN的網絡結構如下。首先空間上分塊,將圖像分為多塊,默認同一塊上的像素差異不是很大,所以塊內不重復進行non-local計算,重點針對塊間計算。在resnet s4之后,送入后面三層non-local層之前,將視頻中相鄰兩幀的feature進行Pool融合,時間維度上減半。【參考知乎:傳送門

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM