從0單排:學風侏儒——零樣本學習3篇論文


Zero shot learning

主要是zero-shot learning相關論文的閱讀,主要關注於視頻方面。
零樣本問題現在處理視頻的很少,主要是因為零樣本自身就有不少的急需解決的問題:

  1. domain shift
  2. Hubness problem
  3. semantic gap

詳情可以看這篇文章 零次學習(Zero-Shot Learning)入門

1. 15. Objects2action:Classifying and localizing actions without any video example

ICCV上面的文章,引用大概77。

  • 問題:識別視頻動作而無需案例
  • 挑戰:無需案例
  • 創新:不需要屬性分類器和類別-屬性映射的設計,用一個skip-gram模型涵蓋了數千種目標類別的語義詞語集成 semantic word embedding。基於convex combination 凸組合來編碼視頻的動作和目標。這個模型包含3個主要特征:
    1. 提出一個利用多詞語的動作和目標描述 multiple-word descriptions of actions and objects 機制
    2. 吸納每個動作中自動選擇的最具響應目標 most reponsive objects
    3. 在這種零樣本方法上擴展到動作時空定位


看它的pipeline,就是把動作識別分為了目標檢測和語義集成兩個方面,在上方的先驗中獲得兩個比較重要的內容:1 通過圖片和目標類別的訓練,獲得目標集成(就類似於目標檢測 2 通過語料庫和目標類別的訓練,得到每個目標類別在語料庫中語義集成, 然后利用這兩個先驗獲得下面兩個部分: 1 獲得測試集中動作類別的語義信息,既每個類別和那些目標類別有關系 2 獲得測試視頻中出現的目標編碼, 然后用這兩個內容得到一個測試視頻與類別的關系(視頻 —— 目標 —— 類別)

  • 實驗:實驗主要對比了兩種不同的語義集成方式:average word vector 和 fisher word vector,以及兩種sparse translation 稀疏遷移中采用的方法:action sparsity 和 video sparsity,實驗中 fisher word vector 和 action sparsity 是效果最好的。

2. 16. Multi-Task Zero-Shot Action Recognition with Prioritised Data Augmentation

eccv,21。

  • 挑戰:在原本的監督學習中,訓練數據和測試數據是從同一個分布中獲得。從而導致因為假設輔助類別和目標類別具有相同的映射,現存的ZSL方法都會面臨輔助-目標 auxiliary-target 的領域遷移domain shift問題。
  • 創新:通過使用具有更好泛化屬性的方法和優先相關於目標類別的輔助數據的動態數據re-權重建立一個視覺-語義映射,提升了ZSL在model-和data-centric方法中領域遷移的泛化能力。
    1. 多任務視覺-語義映射,通過約束語義映射參數提升泛化能力(具有更好泛化性的更魯棒的回歸模型):大部分的zsl模型學習語義和視覺元素集成是獨立的,這種策略容易導致在訓練類別上過擬合,因為它將在語義集成中標簽的每個維度獨立對待,盡管標簽本身是在非同一的流形並且許多獨立的映射導致大量參數需要學習(single task learning)。多任務學習 Multi-Task Learning 回歸器方法,具有以下優點:
      1. 利用了響應變量(集成標簽的維度)的關系
      2. 減少了總的訓練參數量
    2. 通過用額外的與目標域相關的實例權重擴展輔助數據池的針對域遷移的優先數據增強方法:將優先數據增加作為一個通過最小化輔助域與目標域間的邊緣分布差異的領域自適應問題,通過一個重要性權重策略來重新衡量每個輔助實例的權重來最小化差異。擴展了 Kullback-Leibler Importance Estimation Procedure 算法在ZSL問題。
  • 實驗:實驗部分首先比較了在使用MTL和latent matching使用有無的性能,提升不算多,大概1個點。隨后比較了數據優先的數據增強方法飛來的提升,KLIEP數據對齊帶來的提升大於標簽對齊帶來的,而全對齊的提升是最多的,大概有4個點,甚至Naive DA都會帶來響應的提升,說明domain shift問題確實很嚴重。

3. 18. Visual Data Sythesis via GAN for Zero-Shot Video Classification

IJCAI, 3。

  • 問題:大多數現存的方法利用了 seen-unseen的相關, 通過學習視覺與語義空間的映射(projection,這種projection方法並不能充分利用數據分布中隱含的辨識信息 discriminative information,所以會遭到因“異構性鴻溝 heterogeneity gap”導致的信息退化
    1. 視頻數據包含更多噪音,需要ZSL模型有更好的魯棒性
    2. 視頻特征同時描述了空間和視頻信息,它的流形更復雜
    3. 視頻內容包含大量可變的姿勢與外觀,導致更容易長尾
  • 挑戰:
    1. 如何對視頻特征和語義知識的聯合分布魯棒的建模,並且確保生成特征的辨識性特征
    2. 如何減輕異構性的影響和最大程度遷移語義
  • 創新:通過GAN搭建了一個虛擬數據合成框架,語義知識和視覺分布被利用於合成未知類別的視頻特征,ZSL用合成特征轉變為監督問題。通過對抗學習,可以對高維視覺特征和語義知識的聯合分布進行建模。
    1. 多級語義推斷,用於加速視頻特征合成:包含兩個由對抗學習驅動的生成程序,語義-視覺,視覺-語義兩個分支
    2. 匹配感知的公共信息相關性 Matching-aware Mutual Information Corelation 來解決信息退化問題:將有用的指導信號提供給程序用以克服信息退化,包含了匹配和未匹配的視覺-語義對用於語義知識遷移。
  • 實驗:實驗可以看出,相比較於SVM作為最后分類器,NN會有hubness problem,所以SVM性能遠好於NN。有趣的地方在於,平均的測試結果中,Fisher vector得到的視覺特征用於生成學習的效果比Deep Feature(使用VGG-19得到的)好。

    但是在消融實驗中,卻不是如此,DF遠好於FV,也沒有提及消融實驗的結果是否為平均結果。消融實驗中可以看到公共信息相關性對於效果的提升十分明顯,遠多於多級語義推斷。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM