SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning


題目:SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

作者: Long Chen等(浙大、新國立、山大)

期刊:CVPR 2017

1       背景

  注意力機制已經在自然語言處理和計算機視覺領域取得了很大成功,但是大多數現有的基於注意力的模型只考慮了空間特征,即那些注意模型考慮特征圖像中的局部更“重要”的信息,忽略了多通道信息的重要性關系。這篇文章介紹了一種新型的卷積神經網絡——SCA-CNN,它融合了空間和信道的關注。

2      方法

  本文提出的方法針對圖像和文字的匹配問題(neural image/video captioning (NIC))和視覺問答(visual question answering (VQA))。圖1說明了在多層特征圖中引入通道注意力機制的動機。首先,由於通道方向的特征映射本質上是對應濾波器的檢測器響應映射,因此通道方向的保持可以看作是根據句子上下文的需求選擇語義屬性的過程。例如,當我們要預測蛋糕的時候,我們的通道會更關注根據蛋糕、火、光和蠟燭的語義,在過濾器生成的通道方向的特征圖。

概述:

       網絡采用編碼-解碼框架生成圖像標題,如圖2所示,SCA-CNN通過多層面的信道注意和空間注意,賦予了原CNN多層地物圖對句子上下文的自適應能力。

空間注意(Spatial Attention):

  一般來說,一個詞只與圖片的一小部分有關,空間注意機制試圖將注意力更多地放在語義相關區域,而不是平均考慮每個圖像區域。對於第l層特征圖V = [v1, v2,…,v m], v∈RC×m,其中m為圖像被划分的區域數,C為信道數,因此vi∈RC是第i個位置的視覺特征。空間注意力分布因子α如下:

 

通道注意力(Channel-wise Attention):

       對每個通道應用空間均值池化,得到通道特征v:

 

通道注意力因子β:

 

 

框架結構1 通道-空間:

       如圖2所示,現在通道特征上應用注意力機制,然后再空間特征上應用。

 

  其中fc()為特征映射通道與對應通道權值的乘機。

框架結構2 空間-通道:

 

框架結構3 空間、通道集成到一個結構:

 

  每個標量特征都有一個概率權重,可以顯著增加特征表示的變化量,但是計算量大。

3       結果

對通道注意力機制的評估:

  根據表1,我們得出以下結論:1)使用VGG-19,S比SAT好;使用ResNet-152,SAT性能要優於S。這是因為VGG-19網絡具有完全連接的層,可以保留空間信息,但是,ResNet-152最初是平均池化的,因此無法保存空間信息。 2)比較C ans S的性能,ResNet-152可以比VGG-19網絡顯着改善C性能,這表明更多的通道數可以提高通道的注意性能,因為ResNet-152比VGG-19具有更多的通道數。 3)在VGG-19和ResNet-152中,S-C和S-C的性能非常相似。通常,C-S比S-C稍好一些,這可能是由於通道方向的特征更加關注。 4)在ResNet-152中,C-S或S-C可以明顯改善S的性能。這表明,通過增加按通道注意,可以在通道數量較大時顯着提高性能。

多層注意力機制評價:

  另外實驗證明,通過在兩個模型(S和C-S)中添加層可以獲得更好的結果,這是因為多層注意有助於獲得對多種語義抽象的視覺關注,但是添加的層數過多會引起過擬合的問題。

從表4和表5的結果可以看出,在大多數情況下,SCA-CNN都優於其他兩種模型(數據集:MS COCO Image Challenge set)。

與當前較好的結果的比較:

 

 

  我們可以看到,在大多數情況下,SCA-CNN優於其他模型。 這是由於SCA-CNN利用空間,通道和多層注意力,而大多數注意力模型僅關注一種注意力類型。這是因為SCA-CNN利用了空間、頻道和多層的注意力,而大多數注意力模型只關注一種注意力類型。請注意,我們不能超越ATT和谷歌NIC的原因是他們聲稱使用集成模型。然而,作為一個單一的模型,SCA-CNN仍然可以達到與集成模型相比較的結果。

相關結果展示:

4       結論

提出了一種新的注意力結構,稱為SCA-CNN。SCA-CNN充分考慮了CNN的特點,並將其轉化為細致的圖像特征:空間性、頻道性和多層性,實現了跨越流行基准的最新性能。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM