看圖說話——CNN和LSTM的聯合應用

https://blog.csdn.net/xinzhangyanxiang/article/details/79117869

看圖說話是深度學習波及的領域之一。其基本思想是利用卷積神經網絡來做圖像的特征提取，利用LSTM來生成描述。但這算是深度學習中熱門的兩大模型為數不多的聯合應用了。

本文是參考文獻[1]的筆記，論文是比較早的論文，15年就已經發表了，不新。但還是想寫下來它的細節以備后用。

關於CNN(卷積神經網絡)和LSTM(長短期記憶網絡)的細節，本文不再贅述其細節。讀者們需要了解的是：

卷積神經網絡是一種特別有效的提取圖像特征的手段。一個在大數據集如ImageNet上預訓練好的模型能夠非常有效的提取圖像的特征。
長短期記憶網絡能夠處理長短不一的序列式數據，比如語言句子。給定一個輸入，網絡能夠給出一個序列輸出。

背景

在參考論文提出的模型之前，對於看圖說話這個問題，解決方法主要有兩個大類：

利用一些預定義好的屬性來進行生成，比如對於路況圖像，可以判斷路上多少車，然后判斷路況堵不堵之后就可以生成描述。但這樣不具有可擴展性，對於每種場景都需要定制。
使用搜索排序的方法定義該問題，即對於每張圖像，在已有的描述中選擇最好的一個。這種方法的限制在於不能生成新的語句。

網絡模型

圖像到文字的問題可以看做是一種機器翻譯，在現在的機器翻譯模型中，以LSTM為基礎的seq2seq模型成為主流，該模型的基本思想是，對於一個數據pair (A, B)。因為A和B表達的是同一個意思，所以存在某種隱含狀態h，使得A和B都對應到h。於是seq2seq模型就先對A進行編碼，得到一個數據表示，再基於這個數據表示去解碼，生成目標語言的文字。

圖像到文字也類似，假設存在某種隱含狀態h，圖像可以編碼到h，而基於h可以生成目標語句。

用公式表示則是：