注意力機制在MDNet跟蹤算法中的應用 by leona


這個是小森森中了ICCC的那篇論文,暫時還沒有論文鏈接和代碼鏈接,在這里替他總結一下。首先這篇論文是在MDNet的基礎上實現的。

1) 題目:Learning Spatial-Channel Attention for Visual Tracking

2)主要貢獻:

  1. 在MDNet的框架上增加了兩個注意力模塊來提取更好的特征,分別是一個空間注意力機制和一個通道注意力機制(MDNet對於特征圖上每個特征點的關注程度是相同的,對所有通道也是同等對待的);
  2. 提出了一個新的損失函數:inter-instance loss,充分利用多域網絡的特點(MDNet只注意在同一個域中區分目標和背景,忽略了不同域之間的目標之間的差異也會對特征的學習產生影響)。

3)介紹:

  通常提高網絡的辨別能力有兩種方法,增加網絡深度,如ResNet,或者增加網絡寬度,如Inception。但這兩種方法在跟蹤問題中都不太適用,一是因為跟蹤問題需要更多的目標位置信息,但深層網絡只能得到更好的語義信息,二是無論加深還是加寬網絡都需要增加很多計算量,不能滿足跟蹤應用中實時的要求。

  MDNet的損失函數是針對同一域中的目標和背景的二分類交叉熵損失,忽略了不同域之間目標的差異性,當出現了和目標同一類別的物體時,跟蹤性能將受到很大的影響。

4)網絡結構:

  保留了MDNet網絡結構中的3個卷積層(預訓練的VGG-M)和3個全連接層的基本結構,前5層為共享層,最后一個卷積層為target specific layer。在第一個卷積層的ReLU后添加空間注意力模塊,在第三個卷積層之后添加通道注意力模塊。

  輸入為107*107的RGB圖像,訓練時輸入的是在gt周圍均勻采樣的圖片塊,在線跟蹤階段輸入的是上一幀確定的目標周圍3D高斯分布采樣的圖片塊。輸入的圖片塊經共享層提取特征,最后一層給出一個正得分和一個負得分,圖片塊根據這個得分被判定為正樣本或者負樣本,即目標還是背景。

5)空間注意力:

  卷積操作是一種局部操作,只關注於輸入圖片的一部分,為了增大感受野,這里采用空間注意力機制,其不會引入很多計算量,不影響算法速度。通俗來講,空間注意力機制就是給特征圖上不同的位置以不同的權重,因不同的位置在特征提取上的重要性是不同的。本文中采用的是經調整后的Non-local模塊。

  首先將輸入特征圖分別給三個1*1的卷積核的卷積層,進行語義轉化(這個地方,小森森說是在對特征圖進行人為操作之前都要對特征圖進行這樣一個語義轉化),得到如下三個函數

  將f(x)和g(x)輸出的特征圖reshape一下,然后進行矩陣相乘,得到大小為WH*WH的特征圖,經softmax之后得到空間注意力。Sq,p表示特征圖上第q個位置和第p個位置之間的相關性,空間注意力就是由Sq,p構成的矩陣。

  再令S矩陣與h(x)做矩陣乘法,乘以系數beta后跳連與特征圖x相加,得到經空間注意力調整后的特征圖。beta初始化為0,因為逐漸增加注意力會使特征更為有效。

  在此說明,注意力機制為一個模塊,其可以添加到網絡的任意部分,只是經過在本模型中添加到第一個卷積層后面的效果是最好的。因為到第3個卷積層得到的特征圖太小了,其對應的是原圖上比較大的一部分區域,這是在進行空間注意力的調整太過粗糙。

6)通道注意力:

  通道注意力機制與空間注意力相似,就是給予不同的通道不同的重要性,即不同的權重。此處使用的通道注意力模塊是一個SE-block。

7)Inter-Instance loss:

   MDNet中由一個問題就是其只注重與區分當前序列的目標和背景,這樣當背景中出現與目標同一類別的實例時,跟蹤容易出現丟失的情況。為了解決這一問題,增加了一個多類別的交叉熵損失來區別不同序列中的目標,使其在特征域上距離更遠,即特征更具分辨力。

  如果只用binary cross-entropy loss來訓練,可能使單個instances和他所在的視頻的背景區分開,但實質上跟蹤器很難將和他是同一類的實例區分開。如果用inter-instance loss來訓練,可以有效利用起其他分支的實例,將他們作為當前視頻的背景,能夠更加關注同類別不同實例的區分。在特征域上距離更大有助於后續對目標和背景做分類。

  這loss function能夠用公式來表示。首先將當前視頻的正樣本輸入多個分支計算得到不同分支的正得分s+,將這些正得分之間做一個softmax 操作得到p+,只有當前視頻分支對應的正得分概率p+用來計算cross-entropy。其中引入了focal loss來作為每個部分的權重,減弱易分樣本的作用,提高難分樣本的作用。

8)效果:

  准確率提升1.9%,成功率提升1.6%。

  在OTB2013和OTB2015上,分別於6個跟蹤器做了比較,MDNet、ECO、ADNET、CREST、SiameseFC、CFNet。

  從圖片中直觀的也能看出,本文算法的跟蹤效果還是不錯的,畫出的邊界框更為精確。

  從表1可以看出,添加了注意力機制和inter-instance loss之后,算法性能在各種情況下都比MDNet表現更突出,證明注意力機制確實能幫助跟蹤器更好的捕捉目標,防止丟失。

  從消融實驗中可以看出,每一部分對算法性能都是由貢獻的,全部綜合起來的貢獻是最大的。表2是空間注意力機制放在不同卷積層后面的效果,可以看出在第3層后面的效果是最差的,這種現象的原因是第三個卷積層的輸出特征圖太小了。

9)Q&A:

  我在presentation,被問到這樣一個問題,就是為什么在空間注意力模塊使用的都是卷積層,而通道注意力模塊里使用的確實全連接層?

  我當時是隨便胡謅的,現在來說的話,在功能上卷積層能實現的全連接層都可以實現,但是卷積層的參數更少,而且不限制輸入的特征圖的大小。而全連接層是具有全局感受野的,在通道注意力模塊中,我們需要得到的是每個通道的權重,這其實是需要包含全局信息的。

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM