讀paper:image caption with global-local attention…

本文轉載自查看原文 2018-01-07 19:01 1212 機器視覺

最近的圖片caption真的越來越火了，CVPR ICCV ECCV AAAI很多頂級會議都有此類的文章，今天我來講一篇發表在AAAI的文章，因為我看了大量的論文，最近感覺AAAI越來越水了。所以這篇文章相對還是比較簡單的。很遺憾，我向作者要源碼。作者也沒理我，不開心。。

Caption：

說簡單點，就是給你一張圖片，然后系統自動生成一句話或者若干句話去描述它。比如這樣：

Give a image:

You will get : A beautiful girl stood in the corridor…..(當然如果加上知識圖譜可能會出現，miss cang stood in the corridor…哈哈，小猥瑣了一下，大家不要介意)

正常我們做captions 都是在coco數據集上做的，這是他們做出的效果：

不過從結果上來說還是很不錯的，不過誰知道呢。。。圖像描述人都不一定能說全。。。

本文的框架圖：

給一張圖片我們分別用cnn和local-faster cnn 抽取他們的全局特征(Gf)與局部特征(Lf)。然后用下面的公式1把它集成起來：

公式1：

s.t

就是局部特征與全局特征的權重，當然這個怎么求呢。我們就用到了attention機制（來自於機器翻譯里），這個機制最近用的很多啊。

（快告訴我這個是不是LSTM的cell細胞，我讀書少你別騙我。。哈哈）

這張圖寫在這里感覺就是廢話，就是RNN 與LSTM的對比。

目標就是訓練：，就是就是可能性最大的跌乘。

損失函數就是最常用的最大似然損失函數：。

這些都不是創新點，沒什么好說的。

綜上，這篇文章最大的創新點就是那個attention 機制和那個抽取局部特征的的RCNN。這樣就上了AAAI。。。。我很難想通。。。哈哈。但是話又說回來了，這不就是大道至簡嗎?

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。