【CV論文閱讀】Rank Pooling for Action Recognition


這是期刊論文的版本,不是會議論文的版本。看了論文之后,只能說,太TM聰明了。膜拜~~

 

視頻的表示方法有很多,一般是把它看作幀的序列。論文提出一種新的方法去表示視頻,用ranking function的參數編碼視頻的幀序列。它使用一個排序函數(ranking function)主要基於這樣的假設:幀的appearance的變化與時間相關,如果幀vt+1在vt后面,則定義;此外,假設同一動作的視頻幀序列,學習到的排序函數的參數,應該的大致一致的。但實際上,后面的假設並沒有給出嚴格的證明,只能說實驗的結果證明了這樣的想法。

 

參數定義

假設輸入的原始幀為x,則一個視頻的幀序列為。把原始幀序列經過smooth操作,得到新的序列。但實際上,這個新的序列,可以是與原始幀有同樣大小的image,也可以是原始幀的特征向量。視頻的實際動態信息為D,而使用一個線性排序函數編碼視頻的動態信息為,u是函數的參數,也就是需要學習的對象,並用它來表示一個視頻。那么,學習的目標就是

 

 

Rank pooling

Rank pooling 的方法是使用一個RankSVM的學習排序算法計算的。整個Rank pooling的學習過程可以總結如下:(1)輸入的數據為處理過的幀序列V,由於RankSVM實際上是有監督學習,所以序列的順序是知道的(2)如上定義了序列的先后順序,定義正例樣本為,其中時間ti在tj之后,反例樣本為它的相反數。(3)可以通過SVM的學習算法,學習如下的凸優化問題

 

(4)如果學習到的參數為u,則一個vi的score定義為,並且有

 

Rank pooling方法的優點

(1)與其他的pooling方法對比,如max pooling,average pooling對比,它的魯棒性更好。

(2)訓練的過程是一個最優化問題,所以它的參數可以很好地表達數據的隱含結構。

 

其他參數化的視頻表示方法

論文在這里主要介紹了一種PCA的方法,提取k個特征向量,達到降維的目標,這k個主成分同樣反映了視頻序列的結構。

 

Smooth操作

這里使用的smooth的操作是time varying mean vector,定義一個mean為,則smooth后的image為。使用time varying mean vector學習RankSVM之后的向量u,計算每一幀的score,如下圖

 

可以看到,它幾乎是有序嚴格上升的,這表明可以很好地區分出幀的先后順序。從另一個方面而言,這種方法可以看到它刻畫了幀與時間的關系。

 

非線性的rank pooling

通過對輸入應用一個非線性映射來獲得。由於RankSVM其實也是學習SVM,所以可以應用一個非線性的核,論文選用的是Hellinger核:

 

訓練的過程

(1)對輸入的每一幀,計算它們的特征向量(HOG、HOF、MBH、TRJ)(2)對特征向量進行smooth,然后通過學習RankSVM得到參數u(3)通過訓練數據來類別的SVM。

對於第1、2步的提取特征向量一步,似乎並不是必要的,個人認為。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM