Seq2Seq和Attention機制入門介紹

本文轉載自查看原文 2019-09-27 21:44 568 RNN/ NLP/ 深度學習

Sequence Generation

引入

在循環神經網絡（RNN）入門詳細介紹一文中，我們簡單介紹了Seq2Seq，我們在這里展開一下

一個句子是由 characters（字）或 words（詞）組成的，中文的詞可能是由數個字構成的。

如果要用訓練RNN寫句子的話，以 character 或 word 為單位都可以

以上圖為例，RNN的輸入的為前一時間點產生的token（character 或 word）

假設機器上一時間點產生的 character 是 “我”，我們輸出的向量 y 是在 character 上的分布，它有0.7的幾率寫出 “我是”，有0.3的幾率寫出 “我很” 。

例子：寫詩

在產生句子第一個 character 的時候，由於前面沒有東西，我們需要給機器一個特殊的character—— <BOS>

BOS：Begin of Sentence

輸出的第一個character $y^{1}$ 可以下面的條件概率表示

我們再輸出概率最大的那個 character，然后把$y^{1}$作為輸入，……，不斷重復這個行為，直到我們輸出 <EOS>

EOS：End of Sentence

我們訓練 RNN 的數據集也類似上面這個樣子。如下圖所示，我們的輸入是古詩的每一個字，輸出是輸入的下一個字，通過最小化 cross-entropy 來得到我們的模型

例子：畫圖

圖片由 pixel 組成，我們可以把一張圖片的像素點想成詞匯，讓RNN產生像素點，道理也是一樣的。

但是圖片每一行最右邊的像素點 $a_{i,j}$ 和下一行最左邊 $a_{i+1, j-2}$ 的像素距離很遠，他們可能沒有關系，$a_{i+1, j-2}$ 反而可能跟正上方的像素 $a_{i, j-2}$ 關系大些。

比如下圖中灰色的像素點和黃色的像素點可能關系不大，而跟藍色的像素點更有關系。

所以我們生成圖片像素點的時候，灰色的像素點是由藍色像素點生成的，而不是由黃色像素點生成。

Conditional Generation

但我們不想隨機生成句子，我們更期望它能根據我們的場景生成相應的句子。比如給張圖片，輸出對圖片的描述；聊天機器人中輸入一句話，輸出這句話的response。

Image Caption Generation

比如我們要訓練一個模型，用來生成圖片的文字說明。

我們可以讓圖片通過一個CNN，輸出一個vector，再把這個vector丟到RNN中。

這個vector可以只在第一個時間點輸入，讓RNN把這個vector存到memory中，后面的時間點補零。
也可以在每個時間點都輸入這個vector，因為RNN到后面可能忘記了我們輸入的vector。

Machine translation / Chat-bot

如果要做一個翻譯機或者一個聊天機器人，我們的輸入是一個句子，輸出是翻譯結果或者response。

這個模型可以分為兩個部分，Encoder 和 Decoder

把句子輸入 Encoder 然后在最后一個時間點把 output 取出來

可以取output，也可以取 $h_{t}$，還有$c_{t}$

再把 Encoder 輸出的vector 作為 Decoder 每一個時間點的輸入。Encoder 和 Decoder 是一起訓練的。

上面這種情況，我們的輸入是Sequence，我們的輸出也是Sequence，所以被稱為 Sequence to Sequence Model

Dynamic Conditional Generation

這種模型又叫做 Attention Based Model。前面介紹的 Encoder- Decoder 這種架構，它可能沒有能力把一個很長的 input 壓縮到一個 vector 中，這樣 vector 就不能表示句子里的所有信息，導致模型表現不如人意。前面 Decoder 每個時間點輸入都是同樣的 vector 。在 Dynamic Conditional Generation 中，我們希望 Decoder 在每個時間點獲得的信息是不一樣的。

我們繼續上面的例子，來訓練一個翻譯模型。這里多了一個向量$z^{0}$，$z^{0}$也是模型需要訓練的參數向量（稱為key）

我們先把每個隱藏層的輸出放到一個 Database 中，用$z^{0}$去搜尋 Database 中的內容。它會和隱藏層的每個輸出$h^{i}$做匹配，得到一個匹配的程度 $\alpha ^{i}_{0}$