論文的重點在於后面approximation部分。
在《Rank Pooling》的論文中提到,可以通過訓練RankSVM獲得參數向量d,來作為視頻幀序列的representation。而在dynamic論文中發現,這樣的參數向量d,事實上與image是同等大小的,也就是說,它本身是一張圖片(假如map與image同大小而不是提取的特征向量),那么就可以把圖片輸入到CNN中進行計算了。如下圖可以看到一些參數向量d pooling的樣例
參數向量d的快速計算
把計算d的過程定義一個函數。一個近似的方法是初始化
,通過梯度下降的方法求解d的最優值
,最終可以得到,
把上式展開得
其中。在這里
,於是結果為
。
Dynamic Maps Network
可以看到rank pooling操作把多個image的信息pooling到一張image。上圖的結構中,可以看到rank pooling的操作要么直接作用在輸入的image上,要么作用在經過多層CNN提取的feature image上,因此可以把pooling 操作定義如下函數
可以把pooling層表達成一個線性的組合,由於Vt是一個線性函數
,於是重寫
可以看到函數本身也依賴於
,對於BP算法的求導而言是很困難的。
使用近似的方法
從近似計算參數向量d的方法中可以看到,系數是獨立於image的。直接使用d的近似計算
來替代計算的線性組合,則BP算法后向傳播時可以看到偏導數的解為
是一個單位矩陣。很明顯,
是一個常數。
總結
個人認為,近似的方法很巧妙,實驗結果也挺好的,但近似的方法好像不大合理的樣子……