CVPR2020論文解析:視頻分類Video Classification


CVPR2020論文解析:視頻分類Video Classification

Rethinking Zero-shot Video Classification: End-to-end Training for Realistic Applications

 

 

 

論文鏈接:https://arxiv.org/pdf/2003.01455.pdf

摘要

深度學習(deep learningDL)是在大型數據集上進行訓練的,它可以將視頻准確地分為數百個不同的類。然而,視頻數據的注釋是昂貴的。Zero-shot學習(ZSL)提出了一種解決方案。ZSL只訓練一次模型,並將其推廣到類不在訓練數據集中的新任務。提出了第一種用於視頻分類的ZSL端到端算法。訓練程序基於最新視頻分類文獻的見解,並使用可訓練的3D CNN來學習視覺特征。這與以前的視頻ZSL方法不同,后者使用預先訓練的特征抽取器。擴展了當前的基准測試范式:以前的技術旨在使測試任務在訓練時未知,但沒有達到這個目標。本文鼓勵跨訓練和測試數據的域轉移,並且不允許將ZSL模型裁剪為特定的測試數據集。本文的性能遠遠超過了最先進的技術。

1.      Introduction

本文的貢獻涉及ZSL視頻分類的多個方面:             

新的建模方法:我們提出了第一個用於Zero-shot識別的e2e訓練模型。訓練程序的靈感來自現代監督視頻分類實踐。圖1表明,這個方法簡單,但優於以前的工作。此外,還設計了一種新的簡單的預訓練技術,以ZSL場景為目標進行視頻識別。            

評估協議:我們提出了一個新的ZSL訓練和評估協議,實施一個現實的ZSL設置。擴展Roitberg等人[40]的工作。在多個測試數據集上測試一個單一訓練模型,其中訓練和測試類集是不相交的。此外,本文認為訓練和測試領域不應該是相同的。             

深入分析:本文對e2e模型和預訓練基線進行深入分析。在一系列引導性實驗中,探索了良好ZSL數據集的特征。

 

 

 

2.       Related work

本文關注的是在訓練時測試數據完全未知的歸納ZSL。有大量關於跨導ZSL的文獻[1,33,54,55,59,58,60],其中測試圖像或視頻在訓練期間是可用的,但測試標簽不是。在這項工作中暫不討論反導方法。

Video classification:

在這項工作中,我們將最先進的視頻分類的訓練時間采樣原理應用到ZSL設置中。這使得我們能夠訓練視覺嵌入e2e。因此,與之前的工作相比,整體架構和推理過程非常簡單,並且結果是最先進的-如圖1所示。

Zero shot video classification:

Zero shot視頻分類的常見做法是首先使用預訓練網絡(如C3D[51]或ResNet[21])從視頻幀中提取視覺特征,然后訓練將視覺嵌入映射到語義嵌入空間的時間模型[4、13、14、15、16、18、35、61、64]。類名語義嵌入的良好泛化意味着該模型可以在可能的情況下應用於新的視頻訓練數據中不存在輸出類。推理減少到查找嵌入為模型輸出最近鄰的測試類。Word2Vec[32]通常用於生成基本真值詞嵌入。另一種方法是使用手工構建的類屬性[23]。本文決定不采用手動方法,因為在一般情況下很難應用。

最近兩種有效的方法,Hahn等人 [18] 以及Bishay等人 [4] ,從每個視頻16幀的52個片段中提取C3D特征。然后訓練一個遞歸神經網絡[10,22],將結果編碼為一個向量。最后,一個完全連接的層將編碼的視頻映射到Word2Vec嵌入中。圖1示出了這種方法。[18]和[4]將可用的數據集類分成兩組后,使用相同的數據集進行訓練和測試。使用預先訓練好的深度網絡是很方便的,因為預先提取的視覺特征很容易在GPU內存中找到,即使對於大量的視頻幀也是如此。替代方法使用生成模型來補償語義和視覺分布之間的差距[33,62]。不幸的是,性能受到無法精確調整視覺嵌入的限制。本文展示了精確的調整對於在數據集中進行概括是至關重要的。本文的工作與朱等人[64]類似。在這兩種方法中,都學習了一種通用的動作表示法,它可以在數據集之間進行泛化。然而,他們提出的模型並沒有充分利用3D CNN的潛力。相反,他們利用了非常深的ResNet200[21],在ImageNet[9,43]上預先訓練,后者不能利用時間信息。正如Roitberg等人[40]指出的那樣,之前的工作是在和目標數據集重疊的操作上訓練模型,違反了ZSL假設。例如,Zhu等人 [64]在完整的活動網絡[11]數據集上訓練。這使得他們的結果很難與本文的相比較。根據本文對ZSL的定義。在與測試數據集重疊的訓練數據集中有23個類。所有其他方法的情況都不同程度地相似。

 

 

 

3.       Zero-shot action classification

首先在視頻分類的背景下仔細定義ZSL。這將使我們不僅可以提出一種新的ZSL算法,而且還可以提出一個清晰的評估協議,希望能將未來的研究引向實用的ZSL解決方案。

3.1.  Problemsetting

形式上,給定一個視頻x,我們推導出相應的語義嵌入z=g(x),並在測試類的嵌入集合中將x分類為z的最近鄰。然后,經過訓練的分類模型M(·)輸出

 

 

 

3.2.   End-to-end training

本文建議同時優化fv和fs。這樣的e2e培訓提供了多種優勢:              一。1)由於fv提供了一個復雜的計算引擎,fs可以是一個簡單的線性層(見圖1)。              2)可以使用標准的3D CNNs來實現完整的模型。             

3)在分類任務中預先訓練視覺嵌入是不必要的。             

由於GPU內存限制,使用完整視頻進行端到端優化是不可行的。本文的實現基於標准的視頻分類方法,即使在訓練過程中只使用一個小片段,這些方法也是有效的,如第2節中詳細討論的。             

形式上,在給定訓練視頻/類對(x,c)∈Ds的情況下,我們在隨機時間t≤(len(x)–16)提取16幀的片段xt。通過最小化損耗優化網絡

 

 

 

3.3.  Towards realistic ZSL

為了確保我們的ZSL設置是現實的,我們擴展了[40]中仔細分離訓練和測試數據的方法。這在實踐中很難實現,而且大多數以前的工作都沒有嘗試過。我們希望我們對訓練和評估協議的清晰表述將使未來的研究人員更容易理解其模型在真實ZSL場景中的性能。

 

 

 

非重疊訓練和測試分類:

本文的第一個目標是確保Ds∪Dp和Dt有“非重疊分類”。簡單的解決方案-刪除              來自目標類的源類名稱或相反的源類名稱不起作用,因為兩個名稱稍有不同的類可以很容易地引用同一個概念,如圖3所示。類名之間需要一個距離。有了這樣的標准, 就可以確保訓練類和測試類不太相似。形式上,設d:C→C表示所有可能類名C的空間上的距離度量,並設τ∈R表示相似閾值。在以下情況下,視頻分類任務完全遵守zero-shot約束:

 

 

 

一種直接的定義方法是使用類名的語義嵌入。我們將兩個類之間的距離定義為

 

 

 

其中cos表示余弦距離。這與我們在等式1中使用的ZSL設置中的余弦距離一致。圖2顯示了在使用上述過程從與測試數據重疊的動力學類中移除后的訓練類和測試類的嵌入。圖3顯示了本文的數據集中訓練類和測試類之間的距離分布。距離非常接近0和大於0.1之間有一個懸崖。在我們的實驗中,我們使用τ=0.05作為一個自然的、無偏的閾值。             

不同的培訓和測試視頻域:             

本文認為Ds∪Dp和Dt的視頻域應該不同。在以前的工作中,標准的評估協議是使用一個數據集進行訓練和測試,使用10個隨機分割。這並不能解釋真實場景中由於數據壓縮、攝像機偽影等而發生的域轉移。因此,理想情況下,ZSL訓練和測試數據集應該具有不相交的視頻源。             

多個測試數據集:             

一個ZSL模型應該在多個測試數據集上運行良好。如上所述,以前的工作為每個可用的數據集(通常是UCF和HMDB)重新訓練和測試。在本文的實驗中,在動力學數據集[25]上只進行一次訓練,在所有UCF[50]、HMDB[28]和ActivityNet[11]上進行測試。

3.4.  Easy pretraining for video ZSL

在真實場景中,模型只需訓練一次,然后部署到各種不可見的測試數據集上。一個龐大而多樣的訓練數據集對於獲得良好的性能至關重要。理想情況下,訓練數據集將根據推理的一般領域進行定制,例如,部署在多個未知位置的強ZSL監視模型將需要一個大型監視和動作識別數據集。然而,獲取和標記領域特定的視頻數據集是非常昂貴的。另一方面,注釋圖像的速度要快得多。

因此,設計了一個簡單的數據集增強方案,從靜止圖像中生成合成訓練視頻。Sec. 5表明,使用此數據集對模型進行預訓練可以提高性能,特別是在可用訓練數據較少的情況下。

使用Ken Burns效果將圖像轉換為視頻:一系列在圖像周圍移動的作物模擬類似視頻的運動。Sec. 4.1提供了更多細節。實驗集中在動作識別領域。在動作識別(以及許多其他分類任務)中,視頻的位置和景物對動作類別具有很強的預測性。因此,選擇了標准場景識別數據集SUN[57]。圖2顯示了場景數據集類名的完整類嵌入。

 

 

 

 

 

 

 

 

 

4.       Test Results

為了得到圖4,我們按類別對動力學664進行了亞采樣。我們首先隨機選取了2個動力學664類,並僅在這些類上訓練算法。我們使用4、10、25、50、100、200、400和所有664個類重復了這個過程。當然,類越少,訓練集包含的數據點就越少。這一結果在圖4中與上面描述的程序進行了比較,我們隨機刪除了動力學數據點,與它們的類別無關。

在圖5中,我們通過四種方式選擇了50個訓練類:(左上角)我們從整個動力學664數據集中隨機選擇了50個類,在這些類上訓練算法,並在測試集上運行推理。我們重復這個過程十次,平均推斷誤差。(右上)我們在Word2Vec嵌入空間中將664個類分為2個類,並在其中一個類中隨機選擇50個類,進行訓練和推理。然后我們重復這個過程十次,平均結果。

 

 

 

 

 

 

5.       Conclusion

本文遵循最近視頻分類文獻中的實踐,為視頻識別ZSL培訓第一個e2e系統。本文的評估方案比現有的工作更嚴格,測量更現實的零炮分類精度。即使在這種更為嚴格的協議下,本文的方法也優於以前的工作,后者的性能是通過訓練和測試集重疊和共享域來衡量的。通過一系列有針對性的實驗,發現一個好的ZSL數據集應該有許多不同的類。在這個觀點的指導下,制定了一個簡單的預訓練技術,以提高ZSL的性能。模型易於理解和擴展。訓練和評估方案很容易與其他方法一起使用。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM