最近的圖片caption真的越來越火了,CVPR ICCV ECCV AAAI很多頂級會議都有此類的文章,今天我來講一篇發表在AAAI的文章,因為我看了大量的論文,最近感覺AAAI越來越水了。所以這篇文章相對還是比較簡單的。很遺憾,我向作者要源碼。作者也沒理我,不開心。。
Caption:
說簡單點,就是給你一張圖片,然后系統自動生成一句話或者若干句話去描述它。比如這樣:
Give a image:
You will get : A beautiful girl stood in the corridor…..(當然如果加上知識圖譜可能會出現,miss cang stood in the corridor…哈哈,小猥瑣了一下,大家不要介意)
正常我們做captions 都是在coco數據集上做的,這是他們做出的效果:
不過從結果上來說還是很不錯的,不過誰知道呢。。。圖像描述人都不一定能說全。。。
本文的框架圖:
給一張圖片我們分別用cnn和local-faster cnn 抽取他們的全局特征(Gf)與局部特征(Lf)。然后用下面的公式1把它集成起來:
公式1:
s.t
就是局部特征與全局特征的權重,當然這個怎么求呢。我們就用到了attention機制(來自於機器翻譯里),這個機制最近用的很多啊。
(快告訴我這個是不是LSTM的cell細胞,我讀書少你別騙我。。哈哈)
這張圖寫在這里感覺就是廢話,就是RNN 與LSTM的對比。
目標就是訓練:,就是就是可能性最大的跌乘。
損失函數就是最常用的最大似然損失函數:。
這些都不是創新點,沒什么好說的。
綜上,這篇文章最大的創新點就是那個attention 機制和那個抽取局部特征的的RCNN。這樣就上了AAAI。。。。我很難想通。。。哈哈。但是話又說回來了,這不就是大道至簡嗎?