標簽【multimodal】 - 碼上歡樂

花費 5 ms

Multimodal —— 看圖說話（Image Caption）任務的論文筆記（一）評價指標和NIC模型

看圖說話（Image Caption）任務是結合CV和NLP兩個領域的一種比較綜合的任務，Image Caption模型的輸入是一幅圖像，輸出是對該幅圖像進行描述的一段文字。這項任務要求模 ...

Multimodal —— 看圖說話（Image Caption）任務的論文筆記（二）引入attention機制

在上一篇博客中介紹的論文“Show and tell”所提出的NIC模型采用的是最“簡單”的encoder-decoder框架，模型上沒有什么新花樣，使用CNN提取圖像特征，將Softma ...