論文閱讀 | Multimodal Transformer Networks for End-to-End Video-Grounded Dialogue Systems


論文地址 :https://www.aclweb.org/anthology/P19-1564/

作者: Hung Le, Doyen Sahoo, Nancy Chen, Steven Hoi

機構 :Singapore Management University, Institute of Inforcomm Research, Salesforce Research Asia

 

研究的問題:

關注的是基於視頻的對話系統。當前常用的是RNN+attention+seq2seq。這里舉了一個例子:

 

本文提出了MTN(Multimodal Transformer Networks)對視頻幀中的信息進行建模,包括了視頻、字幕等信息。,整合不同形式的信息。任務是在給定的視頻(包含圖像和語音)的基礎上,根據視頻內容,視頻標題,和已有的對話語句,來生成最合適的回復。

 

研究方法:

任務定義:給定視頻V,標題C,t-1輪對話,每輪都包括一對QA,當前輪的問題Q_t,目標是生成回復A_t。

模型的整體框架如下圖所示。

 

編碼器:

(1)文本編碼:和原始transformer相同,token embedding + position embedding,位置編碼同樣使用三角函數。不同的是,這里沒有使用堆疊的編碼層,編碼層之后只經過一個層歸一化的操作。(也就是沒有feed forward network)。對於query、字幕、對話歷史的編碼方式是相同的。

(2)視頻編碼:使用一個n幀的滑動窗口來提取特征,特征包括圖像和聲音兩個部分。通過一個線性層將維度轉為與文本編碼一致的維度。編碼的結構如下圖所示。

 

解碼器:

包括n個相同的層,每層都是4+M個子層,每個子層都包含一個 multi-head attention 機制加一個 position-wise 的feed-forward層,來處理一個特定的編碼輸出,包括:目標序列的偏移,對話歷史,視頻標題,當前的query和視頻中的非文本特征。(M對應的是非文本特征,在本文是使用的是視頻和音頻,也就是2。4對應的就是前邊四個輸出。)在attention的計算中使用了層歸一化和殘差連接。公式表示如下:

 

Auto-encoder:

這一層的目的是為了進一步加強視頻中的非文本特征和當前的query之間的關系。包含N個層,每個層包括1+M個子層(這里的M同樣是表示非文本特征,也就是兩層,1對應的是query的編碼)。query經過之前的編碼層后,再經過一個 Self-Attention 模塊,得到 query 自身的編碼表示;視頻中的圖像和音頻信息,與 query 編碼分別進入 multi-attention 模塊,得到視頻特征中的 query-aware 編碼表示。公式表示如下:

Simulated Token-level Decoding

為了減少訓練和測試時的差異,在測試的時候做以下操作:以一定的概率在某個位置(位置在2,…,L-1中均勻產生),將目標序列剪開,將剪開后左邊的序列作為目標序列。

目標函數:

模型目標函數是目標序列的損失和auto-encoder的損失之和。

 

實驗結果:

 

這里base/large是作者訓練的兩種規模的模型,可以看到結果有一定提升。

作者還做基於圖片的對話任務上進行了實驗,數據集是COCO。結果如下:

 

同樣取得了很好的效果。

 

評價:

提供了一種組合文本特征和非文本特征的方式,從結果來看取得了比較好的效果。整體模型是基於transformer的,加入了一個auto-encoder來結合目標(回答query)進一步強化attention。文章的重點是介紹文本信息和非文本信息的結合方式,對於各自的信息提取(比如word embedding和feature extractor)沒有做討論,可能是一個改進的方向。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM