吳恩達《深度學習》第五門課（1）循環序列模型（RNN）

本文轉載自查看原文 2018-07-21 16:02 1457 吳恩達《深度學習》

1.1為什么選擇序列模型

（1）序列模型廣泛應用於語音識別，音樂生成，情感分析，DNA序列分析，機器翻譯，視頻行為識別，命名實體識別等眾多領域。

（2）上面那些問題可以看成使用（x，y）作為訓練集的監督學習，但是輸入與輸出的對應關系有非常多的組合，比如一對一，多對多，一對多，多對一，多對多（個數不同）等情況來針對不同的應用。

1.2數學符號

（1）x^(i)<t>前面的i表示第i個訓練樣本，t表示某個序列樣本中索引位置，如下面的一句話是一個樣本，“and”的索引是3，序列的長度用Tx表示，下面句子中T_x=9。

（2）單詞是無法直接輸入到網絡中，所以必須轉成數子，用數字來表示單詞。方法是將數據集中出現次數最多的10000個單詞（這里用10000為例，可以更多），然后用one-hot來表示每一個單詞，如下圖所示：

1.3循環神經網絡模型

（1）使用標准網絡來做上面的命名實體識別，即找出句子中的人名，會存在兩個明顯的問題：第一是不同的訓練樣本的單詞數不一樣，當然可以使用pad來填充，第二是不能狗共享不同位置上學到的特征，用循環神經網絡可以解決這些問題。

（2）循環神經網絡將按照下圖進行計算：

（3）數學式子如下所示：

將Waa和Wax合並在一起：

得到

（4）激活函數常用tanh,另外輸出由於是用0，1表示是否是人名，所以用sotfmax激活函數。

1.4通過時間的反向傳播

（1）一個元素的代價函數（一個0，1二分類問題，注意下面式子中應該是（1-y^<t>））：

（2）每一個樣本的代價函數：

（3）RNN反向傳播示意圖：

1.5不同類型的循環神經網絡

（1）如下圖中，第一種是傳統標准的網絡層，第二是一對多（音樂生成），第三是多對一（情感分析），第四是多對多（輸出與輸入個數相等，語音識別），第五是多對多（輸出與輸入個數不一定相等，機器翻譯）。

1.6語言模型和序列生成

（1）語言模型以下面兩個句子為例，語言模型要解決的就是那個句子出現的概率更大，則輸出哪個。

（2）句子的結束句號可以用one-hot表示，關於不在字典中的10000個詞的其他詞，可以統一用UNK表示，UNK是用one-hot表示的額，所以可以看成總共有10002個字典。

（3）語言模型如下圖所示，首先第一個輸出是在無任何提示下輸出各個詞的概率，第二個輸出是在給定第一個輸出標簽時各個詞（10002）輸出的概率，以此類推，每一個輸出都是在給定條件下一個輸出各個單詞的概率。

（4）訓練網絡時，上圖中序號8和9分別代表了一個元素和一個樣本的代價函數，代價函數使用的是交叉熵。

（5）在使用網絡時，現在有一個包含三個詞（y^<1>，y^<2>，y^<3>）的句子，這時網絡沒有任何信息的條件下求是y^<1>的概率，然后計算在給定y^<1>條件下y^<2>的概率，最后在給定y^<1>，y^<2>條件下y^<3>的概率。最后可以確定，輸出是這個句子的概率如下圖所示，回到最初的兩個句子，可以分別求兩個句子的概率，取概率最大的句子即可：