讀paper:image caption with global-local attention…


最近的圖片caption真的越來越火了,CVPR ICCV ECCV AAAI很多頂級會議都有此類的文章,今天我來講一篇發表在AAAI的文章,因為我看了大量的論文,最近感覺AAAI越來越水了。所以這篇文章相對還是比較簡單的。很遺憾,我向作者要源碼。作者也沒理我,不開心。。

Caption:

說簡單點,就是給你一張圖片,然后系統自動生成一句話或者若干句話去描述它。比如這樣:

Give a image:

You will get : A beautiful girl stood in the corridor…..(當然如果加上知識圖譜可能會出現,miss cang stood in the corridor…哈哈,小猥瑣了一下,大家不要介意)

正常我們做captions 都是在coco數據集上做的,這是他們做出的效果:

不過從結果上來說還是很不錯的,不過誰知道呢。。。圖像描述人都不一定能說全。。。

本文的框架圖:

給一張圖片我們分別用cnn和local-faster cnn 抽取他們的全局特征(Gf)與局部特征(Lf)。然后用下面的公式1把它集成起來:

公式1:

        s.t

就是局部特征與全局特征的權重,當然這個怎么求呢。我們就用到了attention機制(來自於機器翻譯里),這個機制最近用的很多啊。

(快告訴我這個是不是LSTM的cell細胞,我讀書少你別騙我。。哈哈)

這張圖寫在這里感覺就是廢話,就是RNN 與LSTM的對比。

目標就是訓練:,就是就是可能性最大的跌乘。

損失函數就是最常用的最大似然損失函數:

這些都不是創新點,沒什么好說的。

綜上,這篇文章最大的創新點就是那個attention 機制和那個抽取局部特征的的RCNN。這樣就上了AAAI。。。。我很難想通。。。哈哈。但是話又說回來了,這不就是大道至簡嗎?

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM