Reading papers_7(與human activity recognition特征提取相關,ing...)


1.讀Dollár, P., V. Rabaud, et al. (2005). Behavior recognition via sparse spatio-temporal features, IEEE.

 

   本文作者提出了檢測視頻數據特征點,即spatio-temporal特征,即時空特征點,並將該特征應用於行為識別,且在前提假設比較少的情況下提出了一個人體特征檢測和行為識別的通用框架。

  行為識別的研究途徑有以下幾種:通過恢復視頻中人體的位置和姿態,但是模型匹配很難做到准確;通過跟蹤空間特征點軌跡來進行識別;通過不斷的重復跟蹤來對人體進行行為識別;通過檢測時空特征點來進行行為識別。

 

  作者的算法分為4個步驟。

特征檢測:

  作者是思想是需要將圖片的空間檢測算子擴展到視頻的時空檢測算子。常見的圖片空間檢測算子途徑是:角點檢測,比如harris角點;LOG算子,比如sift;顯著點檢測;但是在此之前這樣的擴展工作只有3D Harris特征。這個特征點有很好的性質,得到了作者大篇的表揚。但是作者后面進行試驗用到的3個數據庫除了正常的行為數據庫外,還有嚙齒類動物行為數據庫,在這2類行為識別中,3D Harris特征點數目太少了。並且這時這樣的時空角點並不是很好的特征,所以不得不尋找更好的時空特征。

  在攝像頭靜止或者攝像頭運動但是其運動能夠通過算法進行補償的前提下,作者提出了一個時空特征點檢測算法,論文第4頁中其計算有公式。該特征點檢測算法能夠周期性運動的物體,或者其他有着顯著運動特征的物體,且檢測出來的特征點數目非常多。但是如果物體做純粹的平移運動或者運動特征不明顯則檢測的特征點數目很少。

Cuboid:

  當檢測到特征興趣點后,就需要將每個特征興趣點擴展成cuboid,cuboid的長和寬的確定在文章中有簡要的介紹。接着就需要用什么指標比較2個cuboid的相似度了。首先需要將cuboid轉換成向量,作者采用了3種方法,即歸一化像素值;引入亮度梯度;引入窗口光流。然后作者比較了直接用特征向量,用全局直方圖,用局部直方圖3中思想作為計算cuboid相似度的依據,發現直接采用向量效果更好,這樣的特征向量其本質就是PCA-SIFT。

Cuboid prototypes:

  很直觀,當不同人做同一種動作時,盡管其表觀和運動有所不同,但是其特征表示應該一樣,因為是同一種行為。所以在行為是被領域,單獨檢測一個cuboid不是很重要,而是要檢測出cuboid的類型,即cuboid prototypes。

所以在作者在進行檢測cuboid后,將大量的cuboid進行了k-means聚類。所以在訓練階段,每個cuboid都被分到了某一個cuboid protypes。

行為描述子:

  當找到了cuboid protypes后,就可以進行行為描述了。行為描述作者采用的是cuboid protypes直方圖。直方圖直接的距離采用歐式距離或者卡方距離。

 

  對於實驗部分,作者采用了3個數據集。面部表情數據集(作者自己的);老鼠行為數據集(作者自己的);KTH人體行為數據集(公認測試集)。在這個3個數據集上,作者和另外3中比較流行的行為識別算法ZMI,EFROS,CUBOIDS+HARRIS做了比較,並證明自己的算法(取名為CUBOIDS,其實就是提取的特征過程)比其他3種效果都要好。分類器采用SVM比1NN效果稍好。

    

論文寫作技巧學習:這篇paper中,其實只是提出了一個時空特征點的檢測公式,但是確寫了一篇非常棒的paper,難得。究其原因,作者將每個參數的選取過程都寫進去了,比如說將特征點轉換成cuboid時的向量選擇過程,作者通過實驗對比發現直接用向量比較好。總之,就是論文的寫作過程盡量體現平時做對應項目的過程。另外作者自己做的2個數據庫也花了大篇的文章來記載。

 

 

2.讀Laptev, I. (2005). "On space-time interest points." International journal of computer vision 64(2): 107-123.

 

   本文是一篇經典關於時空特征點的文章,后人稱其算法為STIP,即時間空間感興趣點。作者主要分為以下4部分來講。

時空興趣點的檢測:

  為了檢測時間空間發生的行為,其基本思想是基於harris角點和forstner角點(個人感覺基本是harris角點),即在圖像局部區域空間和時間軸上像素值都有顯著變化的點作為時空興趣點,因此在時間軸上勻速直線運動的點是不會被檢測的出來的。為了使該算子自適應尺度變化,先對圖像在時間和空間做了尺度變換,即采用了不同尺度的高斯濾波函數,后面實驗結果證明,這2個濾波尺度的大小對實驗結果影響很大,與視頻中人體行為的特點有關。

  類比經典的harris算法,這里擴展了一個時間維,采用高斯窗口,同理后面轉換為計算一個3*3的矩陣的3個特征值,最后用這3個特征值的和以及積構成一個響應函數H,對H設定閾值來計算對應點是否為所需點。

  這里有網友將其過程較詳細的貼出來了:http://www.cnblogs.com/ztfei/archive/2012/05/08/2489900.html

時空尺度因子的自適應選擇:

  上面提到,時空域2個尺度因子的選擇不同對實驗結果有明顯的不同,大致影響關系為:時間域內尺度因子越大,則表明動作發生的時間越短,所以優先檢測出動作持續時間短的特征點,時間域內尺度因子越小,則優先檢測動作持續時間長的特征點,論文中有示意圖介紹;同理在空間域內的尺度因子影響效果一樣。

  作者是通過取歸一化后的在時間尺度和空間尺度拉普拉斯算子最大值,來檢測時空域范圍內事件的發生,基於這種機制就能夠得出尺度變換無關的時空興趣點檢測算子。文中有大把的公式推論,沒真正看懂。其目的無非是提出一種怎樣自適應選擇時空尺度因子,並給出了一個算法流程表。

運動的分類:

  通過上面幾步,可以檢測出一些時空興趣點,但是為了區分不同動作之間以及動作與噪聲之間的興趣點,作者又對這些興趣點進行了分類,每一類興趣點用一個向量表示,2類興趣點直接的距離采用馬氏距離計算,當然在這之前,作者先采用了k-means對這些興趣點進行了聚類。

video interpretation(不懂怎么翻譯比較好,視頻解說?)

  這一節的主要內容是,在video interpretation領域怎么應用視頻序列的稀疏表達,這些稀疏表達是用已經分類好的時空興趣點計算得來的。作者通過行人檢測和姿態估計做了詳細的說明。

  在行人檢測方面,作者對“行走”這一動做建立了模型,這個模型由一系列的重復特征點組成,這些特征點是一個6維的特征向量,包括位置,時間,尺度,類別等信息。在檢測方面,有一系列的公式來進行模板匹配,也還沒怎么真正看懂。

  后面的實驗證明本文提出的自適應的時空特征興趣點在行人檢測和姿態估計取得了不錯的結果,這些實驗環境允許在一個背景動態環境且高度雜亂,行人有部分遮擋且尺度大小有變化。

  

  3.讀Bobick, A. F. and J. W. Davis (2001). "The recognition of human movement using temporal templates." Pattern Analysis and Machine Intelligence, IEEE Transactions on 23(3): 257-267.

 

   本文的主要思想是將人體動作采用MEI(運動能量圖)和MHI(運動歷史圖)靜態存儲起來,當新來的測試視頻時,先計算其MEI和MHI,然后與存儲的各運動模板進行匹配,使其馬氏距離之和最短,從而達到動作分類的目的。

  作者首先從一個例子中引出MEI和MHI的出現原因。即如果圖片的分辨率非常低,非常模糊,我們單獨從一張靜態圖片是無法識別出其目標的動作的。但是當把這些靜態圖片變成運動視頻,則我們一般都能識別出來。這是跟人體的視覺系統相關的,因為人體的視覺系統就是善於捕捉運動信息。而MEI和MHI就是保存了目標的運動歷史情況,所以可以用來做人體行為識別。

  作者將人體行為識別方法分為3大類——基於人體模型重建的,基於表觀模板的,基於運動目標的。

  基於人體模型重建是將人體的3維模型重建出來,從而進行識別。一旦人體的3維結構重建出來,其運動位置,方向,表觀,尺寸的各種豐富的信息都可以用來進行行為識別。但是這個重構過程本身就是個非常復雜的過程。

  基於表觀模型是利用2維特征來進行識別的。其主要是利用目標的剪影,輪廓,邊緣等信息來進行識別。

  基於運動模板是利用目標的運動特征來進行識別,比如說光流等。這在人臉表情識別中有應用。可以將表情建模為面部個點運動產生的結果。

  本文中MEI(即運動能量圖)的獲得是要先給定一個歷史間隔T。然后在T時間內如果如果對應像素點有運動(一般通過幀差法檢查即可),則二值化為1,否則二值化為0.然后將各個像素點二值化的結果並起來即可。

  MHI(運動歷史圖)的獲得比較類似,只不過不是二值化,而是采用灰度等級。最近出現過的像素運動其灰度值最大,否則都要相應的減1.

比較容易知道,MEI可以通過MHI一個閾值搞定。且MHI是一個迭代過程,其時間和空間復雜度都比較低。

  目標的匹配過程,需要定義一個相似度距離,文章用的馬氏距離,具體的定義還沒怎么看懂。作者用健美操運動員做的訓練和測試視頻。先用2個攝像頭采集18種動作,每種動作分為7個角度,利用這些信息計算好這128個MHI和MEI。在測試過程中,輸入數據分為1個攝像頭的和2個攝像頭的,當然是2個攝像頭的分類效果好些。

  后面作者還將這些算法進行了擴展,即能夠實時自適應時間分割,並且對速度的線性改變不敏感,具體的公式還沒怎么看懂。

  MEI和MHI的應用方面,作者舉了個KidsRoom的例子,大概講的是怪物和小孩子的互動過程,沒去仔細研究過。

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM