本文轉自: http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650722318&idx=4&sn=728e8e264ca05f2366d75a27744bb383&chksm=871b1470b06c9d669f9a077f0b41502d7682c0f54d5585091a33ddbb5c1a99b00fc9dcbf6d39&mpshare=1&scene=23&srcid=0115Pna4qfc8yeDBDWIGInRX#rd
一周論文 | 多模態機器翻譯
引
多信息融合是一個重要的研究趨勢,尤其是對於訓練數據缺乏的任務來說,如何融入其他相關信息來提高本任務的准確率是一個非常值得研究的問題。機器翻譯是一個熱門的研究領域,隨着訓練數據規模地增加,各種NN模型的效果也取得了突破的進展,google和百度均已部署上線NMT系統;融合圖像、音頻、視頻、文本等各種模態數據的多模態研究也是一個非常熱門的研究方向,本期PaperWeekly將為大家帶來NMT和多模態交叉研究的paper解讀,共3篇paper:
1、Attention-based Multimodal Neural Machine Translation, 2016
2、Multimodal Attention for Neural Machine Translation, 2016
3、Zero-resource Machine Translation by Multimodal Encoder-decoder Network with Multimedia Pivot, 2016
Attention-based Multimodal Neural Machine Translation
作者
Po-Yao Huang, Frederick Liu, Sz-Rung Shiang, Jean Oh, Chris Dyer
單位
CMU
關鍵詞
Visual Features, Attention, Multimodal NMT
文章來源
ACL 2016
問題
多模態神經機器翻譯,在傳統的seq2seq翻譯模型上,利用圖像特征信息幫助提高機器翻譯的結果
模型
在WMT16的多模態神經網絡機器翻譯新任務上的工作。
提出了3種如何將visual feature加入到seq2seq網絡中的encoder,從而使得decoder更好的attention到與圖像,語義相關部分的模型: global visual feature, regional visual feature,paralle threads.
global visual: 直接將VGG中的fc7抽出的feature加入到encoder的first step(head)或者是last step(tail)
regional visual: 先用R-CNN抽出region box的信息,再用VGG得到fc7的特征,將top4對應的region feature,以及global visual feature分別作為每一個step輸入到encoder中
parallel threads: 與regional visual相對應的是,每個thread只利用一個region box的feature,和global visual一樣的網絡,將top 4對應的4 threads和gloabl thread一起做average pooling,每個therad的參數共享; attention則對應所有threads中的所有hidden states
同時本文還提出了三種rescoring translation的結果的方法, 用 1)language model 2)bilingual autoencoder 3)bilingual dictionary分別來挑選translation的句子,發現bilingual dictionary來刪選翻譯的句子效果最好
資源
數據集: WMT2016 (En-Ge)
圖像特征提取: VGG, R-CNN
實驗結果
相關工作
NMT: Kalchbrenner and Blunsom 2013
Attention NMT: Bahdanau 2014
Joint Space Learning: Zhang 2014,Su 2015,Kiros 2014
多模態上相關工作目前並沒有很多,值得快速入手
簡評
本文提出了一種針對圖像和文本結合的神經網絡翻譯模型,非常自然的將圖像特征加入到seq2seq模型的encoder部分,使decoder不僅能夠attention在文本上,同時也能夠focus到圖像上(global或者region);並且模型的設計比較簡單,沒有加入太多復雜的模塊。
不過只是簡單的將圖像的特征作為seq中的一個step,並沒有考慮文本和圖像之間的相關關系,如joint space,相信加入joint learing會有提升。
完成人信息
Lijun Wu from SYSU.
Multimodal Attention for Neural Machine Translation
作者
Ozan Caglayan, Loïc Barrault, Fethi Bougares
單位
University of Le Mans, Galatasaray University
關鍵詞
NMT, Attention
文章來源
arXiv 2016.09
問題
給定圖片和源語言描述的情況下,基於attention機制,生成目標語言的圖片描述。
模型
模型有兩個encoder,一個是textual encoder,是一個雙向GRU,用於獲取源語言文本的向量表示$A^{txt} = {a^{txt}_1,a^{txt}_2,…}$,另外一個是visual encoder,使用的是現成由ImageNet數據集訓好的ResNet-50網絡,用於獲取圖片的向量表示。$A^{im} = {a^{im}_1,a^{im}_2,…}$. Decoder部分,是兩層的stakced GRU,先用attention方式,分別獲取文本部分和圖像部分的context向量$c^{txt}$和$c^{im}$,然后將兩個向量concat在一起,作為新的context 向量$c$。
如圖:
這樣decoder部分的解碼翻譯的時候,不僅可以考慮到源語言的文本信息,也可以考慮到原始圖片的信息。
資源
IAPRTC-12 dataset for English and German
相關工作
2014年Bahdanau的Neural Machine Translation by Jointly Learning to Align and Translate,使NMT超過了傳統的PBMT,后來的NMT論文基本都是在這個文章基礎上進行的改進。
2015年Elliott的工作Multi-language image description with neural sequence models. 也是在給定源語言和圖片的情況下,生成目標語言。不過並沒有使用attention機制。
簡評
該文章的創新之處,在於對圖片描述文字進行翻譯的時候,考慮到了圖片本身的特征信息並引入attention機制。在源語言文本生成出錯的情況下,因為有圖片信息參考,在一定程度上,可以減輕這種錯誤帶來的影響。不過文章並沒有利用外部英德平行語料,這可以考慮作為后面的改進方向。
完成人信息
xiaose@mail.ustc.edu.cn
中國科學技術大學
Zero-resource Machine Translation by Multimodal Encoder-decoder Network with Multimedia Pivot
作者
Hideki Nakayama,Noriki Nishida
單位
The University of Tokyo
關鍵詞
pivot, multimodal, NMT
文章來源
arXiv, 2016.11
問題
在沒有平行語料的情況下,用image當作pivot來實現機器翻譯
模型
整體上講,模型分成兩部分。第一部分是多模態embedding,采用pairwise ranking loss來定義損失函數;第二部分是用RNN來實現的decoder,跟image caption里面的decoder類似。對這個問題來說,我們的訓練數據包括$i^{s}$:源端的圖片,$d^{s}$:源端圖片對應的句子描述;$i^{t}$:目標端的圖片,$d^{t}$:目標端圖片對應的句子描述,和源端用的不一樣的語言。文中提出了2個模型來解決這個問題:
模型1的多模態端包括了圖片的encoder和源句子的encoder。圖片encoder可以對源圖片和目標圖片通用。多模態端用$i^{s}$,$d^{s}$進行訓練,損失函數為:
$E^{v}$表示圖片的encoder(比如用VGG-16提取圖片的feature), $E^{s}$表示源句子的encoder(比如用RNN),$d^{s}_{ng}$表示和源端圖片不相關的描述。Decoder端用$i^{t}$,$d^{t}$進行訓練,損失函數為標准的 cross-entropy loss(稱作圖片損失):
模型2比模型1更復雜一點。在源端增加了一個目標句子描述的encoder。因此,在多模態embedding的學習中,損失函數增加了目標圖片和目標圖片描述的pairwise ranking loss.
在decoder的學習中,模型2除了前面的公式2定義的圖片損失外,還增加了目標描述的reconstruction loss,即從多模態端輸入目標描述,希望通過embedding和decoder重建這個目標描述。
資源
兩個Multilingual image-description的數據集:IAPR-TC12(包含2萬圖片以及英語和德語的描述)和 Multi30K(包含3萬圖片以及英語和德語的描述)
相關工作
對於沒有平行語料的機器翻譯,多數文章是用某種常見語言作為pivot,比如“Neural Machine Translation with Pivot Languages”, 用英語作為西班牙語法語以及德語法語之間的pivot。缺點是翻譯的時候還是要經過pivot那一步。 另外,還要一些工作是用一個模型實現many to many的翻譯。在這種情況下,沒有平行語料的語言對也能用這個模型進行翻譯。不需要經過pivot那個中間層,但是效果一般會差一點。比如“Google’s Multilingual Neural Machine Translation System”這篇文章。
簡評
這篇文章的思路很新穎,考慮用圖片來作為pivot,實現沒有平行語料的語言對之間的翻譯。訓練完成后可以直接從源語言到目標語言進行翻譯,不需要經過圖片。但是正如文中提到的,這種方法跟有語料訓練出來的翻譯效果比起來還是差很多,並且翻譯的句子都比較短。另外,對一些圖片難以表達的信息很難通過這種方式學到。
完成人信息
yun.chencreek@gmail.com
總結
交叉領域的研究總是會帶給大家驚喜,交叉領域的交叉領域更是如此,這個領域剛剛開坑,歡迎各位有志之士跳坑。並且在2016年舉辦了第一屆多模態機器翻譯(Multimodal Machine Translation)和多語看圖說話(Crosslingual Image Description)比賽,比賽主頁http://www.statmt.org/wmt16/multimodal-task.html, 總結性的paper http://anthology.aclweb.org/W/W16/W16-2346.pdf
掃碼下載本期paper
相關閱讀
1、PaperWeekly 第十五期---Attention模型在NMT任務中的應用和進展
關於PaperWeekly
PaperWeekly是一個分享知識和交流學問的學術組織,關注的領域是NLP的各個方向。如果你也經常讀paper,也喜歡分享知識,也喜歡和大家一起討論和學習的話,請速速來加入我們吧。
微信公眾號:PaperWeekly
微博賬號:PaperWeekly(http://weibo.com/u/2678093863 )
微信交流群:微信+ zhangjun168305(請備注:加群交流或參與寫paper note)
內容轉載自公眾號


微信掃一掃
關注該公眾號