【CVPR2018,action recognition,動作識別】Appearance-and-Relation Networks for Video Classification


Appearance-and-Relation Networks for Video Classification,CVPR2018

Two-tream網絡效果好,但是太耗時;2Dconv+LSTM和其他方式的效果又不太好,主要是因為LSTM只能抓住高層次的模糊信息,不能抓住細粒度的運動信息。3Dconv的效果到目前為止也不太好。所以作者提出了一個新的網絡結構---ARTNet,用叫做SMART的block去代替3D卷積操作。

SMART塊結構如圖:

一個SMART塊由兩個分支組成,共享輸入,本文采用的是\(112 \times 112 \times 16\)幀輸入。
表示為\(\mathbb{R}^{W \times H \times T \times C}\)

  • 下面的分支主要通過常規的2D卷積逐幀提取空間信息;輸出為\(\mathbb{R}^{{W}' \times {H}' \times {T}' \times {C}'}\) 。這里2D不涉及到時間,所以應該\(C={C}'\),但是論文中沒有明確說,具體操作要看代碼才知道。
  • 上面的分支是2Dconv在時間域上的拓展,但是不同於3Dconv操作的希望同時獲取時空信息,這里的設計為只獲取空間信息。具體的操作是尋找適合表示相鄰幀之間的小塊區域x和y之間的relation的表示函數z。3D卷積的操作是\(z_k=\sum_{i}w_{ik}x_i+\sum_jw_{jk}y_j\)。但是這樣的話就同時獲取了content和relation信息,作者希望這個結構基本上只獲取relation信息來提高性能,因為已經專門有一個分支去獲取content信息了,所以作者提出了新的表達式\(z_k=\sum_{ij}w_{ijk}x_iy_j\),這樣的z基本上就獲取的是兩個小塊x和y之間的relation,但是這里存在的問題是參數太多了,文中說參數大概是像素點個數的立方(the number of parameters is roughly cubic in the number of pixels),我沒太搞清楚立方是怎么來的。為了減少參數,作者把W分成了3部分,即\(W_{ijk}=\sum_{f=1}^Fw_{if}^xw_{jf}^yw^z_{kf}\)。所以\(z_k\)可以轉化為

\[\begin{aligned} z_k &=\sum_fw_{kf}^z\sum_iw_{if}^xx_i\sum_jw_{jf}^yy_i\\ &=\sum_fw_{kf}^z(\omega_f^{xT} \textbf{x} )(\omega_f^{xT}\textbf{y}) \end{aligned} \]

這里我沒看懂是怎么推出來的,這里的思路是從[1]中獲取的靈感,可能這篇論文會有更詳細的推導。

這里\(z_k\)的表示和[2]中的能量模型的表達式很像,原表達式為

\[\begin{aligned} z_k &=\sum_fw_{kf}(w_f^{xT}\textbf{x}+w_f^{yT}\textbf{y})^2 \\ &=\sum_fw_{kf}[2(w_f^{xT} \textbf{x})(w_f^{yT}\textbf{y})+(w_f^{xT})^2+(w_f^{yT})^2] \end{aligned} \]

文中說[3]證明了后面兩個平方項對z的意義沒有影響。這樣的話就可以很輕松的用3D卷積來實現了。

(這里的轉換我沒有看懂,但是最后的結果看起來和之前的公式沒有什么區別,只不過平方一下再乘了一個矩陣而已。另外這里的f我也沒看懂是什么意思,論文中沒有解釋)

  • 圖中的3Dconv操作對應\(w_f^{xT}\textbf{x}+w_f^{yT}\textbf{y}\),Square對應平方操作,Cross channel pooling對應\(w_{kf}\)的乘積和。
  • 兩個分支的結果出來之后concatenate,然后reduce去壓縮channel。兩個分支的卷積核的個數和空間大小都是一樣的,所有輸出上路的U和下路的F的WHTC都是一樣的,cross之后上路的C減半。
  • SMARTblock的輸出與一個3Dconv操作無異,所以可以用來代替3Dconv操作。

作者在ResNet18上替換實驗,實驗對比圖如下:

從Table2可以看出,3Dconv確實比2Dconv的效果要好,說明3Dconv確實能抓到運動信息,SMARTblock獲得了最好的結果。純Relation的堆疊效果不太好,說明還是缺乏空間信息,所以這個z的設計應該還是比較好的抓了運動信息。從Table3來看,ARTNet在two-tream上的提升遠不如C3D的提升,說明這個結構的設計確實能有效的分別捕獲靜止空間特征和relation。

reference

[1]R. Memisevic. Learning to relate images. IEEE Trans. Pattern Anal. Mach. Intell., 35(8):1829–1846, 2013.

[2]E. H. Adelson and J. R. Bergen. Spatiotemporal energy models for the perception of motion. J. Opt. Soc. Am. A,2(2):284–299, 1985.

[3]R. Memisevic. On multi-view feature learning. In ICML,2012.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM