【CV論文閱讀】Dynamic image networks for action recognition


論文的重點在於后面approximation部分。

 

在《Rank Pooling》的論文中提到,可以通過訓練RankSVM獲得參數向量d,來作為視頻幀序列的representation。而在dynamic論文中發現,這樣的參數向量d,事實上與image是同等大小的,也就是說,它本身是一張圖片(假如map與image同大小而不是提取的特征向量),那么就可以把圖片輸入到CNN中進行計算了。如下圖可以看到一些參數向量d pooling的樣例

 

 

 

參數向量d的快速計算

把計算d的過程定義一個函數。一個近似的方法是初始化,通過梯度下降的方法求解d的最優值

,最終可以得到,

 

把上式展開得

 

其中。在這里,於是結果為

 

Dynamic Maps Network

 

可以看到rank pooling操作把多個image的信息pooling到一張image。上圖的結構中,可以看到rank pooling的操作要么直接作用在輸入的image上,要么作用在經過多層CNN提取的feature image上,因此可以把pooling 操作定義如下函數

 

可以把pooling層表達成一個線性的組合,由於Vt是一個線性函數,於是重寫

可以看到函數本身也依賴於,對於BP算法的求導而言是很困難的。

 

使用近似的方法

從近似計算參數向量d的方法中可以看到,系數是獨立於image的。直接使用d的近似計算來替代計算的線性組合,則BP算法后向傳播時可以看到偏導數的解為

 

是一個單位矩陣。很明顯,是一個常數。

 

總結

個人認為,近似的方法很巧妙,實驗結果也挺好的,但近似的方法好像不大合理的樣子……


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM