視頻描述（Video Captioning）調研

本文轉載自查看原文 2017-11-08 23:08 1891 深度學習

Video Analysis 相關領域介紹之Video Captioning(視頻to文字描述)
http://blog.csdn.net/wzmsltw/article/details/71192385

基於視頻圖像的信息：包括簡單的用CNN（VGGNet, ResNet等）提取圖像(spatial)特征，
用action recognition的模型(如C3D)提取視頻動態(spatial+temporal)特征

先驗特征：比如視頻的類別，這種特征能提供很強的先驗信息

基於文本的特征：此處基於文本的特征是指先從視頻中提取一些文本的描述，再將這些描述作為特征，來進行video captioning。
這類特征我看到過兩類，一類是先對單幀視頻進行image captioning,將image captioning的結果作為video captioning的輸入特征，
另外一類是做video tagging，將得到的標簽作為特征。

基於聲音的特征：對聲音進行編碼，包括BOAW（Bag-of-Audio-Words)和FV(Fisher Vector)等

多模態概念
Multimodal Deep Learning（多模態深度學習）未完待續
http://blog.csdn.net/s2010241013/article/details/51731657

計算機視覺中的詞袋模型(Bow,Bag-of-words)
http://www.cnblogs.com/YiXiaoZhou/p/5999357.html
BoW起始可以理解為一種直方圖統計，開始是用於自然語言處理和信息檢索中的一種簡單的文檔表示方法。
和histogram 類似，BoW也只是統計頻率信息，並沒有序列信息。
而和histogram不同的是，histogram一般統計的某個區間的頻數，BoW是選擇words字典，然后統計字典中每個單詞出現的次數。
BoW出現在CV中，如圖像分類、圖像檢索等。其大概過程首先提取圖像集特征的集合，
然后通過聚類的方法聚出若干類，將這些類作為dictionary，即相當於words，
最后每個圖像統計字典中words出現的頻數作為輸出向量，就可以用於后續的分類、檢索等操作。

BOAW（Bag-of-Audio-Words)受到文本詞袋啟發音頻處理
http://dynadmic-lab.com/tag/bag-of-audio-words/
FV Fisher Vector 圖像啟發音頻處理
http://blog.csdn.net/garfielder007/article/details/50768125
GMM、fisher vector、SIFT與HOG特征資料
http://blog.csdn.net/asd8705/article/details/50285641

ICCV2015的”Sequence to Sequence – Video to Text”

CVPR2017上的“Weakly Supervised Dense Video Captioning”

Video Analysis 相關領域介紹之Video Captioning(視頻to文字描述)
https://zhuanlan.zhihu.com/p/26730181

Video Analysis相關領域解讀之Action Recognition(行為識別)
https://zhuanlan.zhihu.com/p/26460437

Video Analysis 相關領域解讀之Temporal Action Detection(時序行為檢測)
https://zhuanlan.zhihu.com/p/26603387

知乎專欄很牛掰
https://zhuanlan.zhihu.com/wzmsltw

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 視頻描述（Video Captioning）近年重要論文總結 Video Captioning 綜述第七講_圖像描述（圖說）Image Captioning 360°視頻論文調研 vue 停止視頻 video video 輪播視頻 video標簽的視頻全屏前端video視頻解決video內視頻沒有鋪滿整個video標簽 video設置視頻的寬高