用於文本分類的RNN-Attention網絡

https://blog.csdn.net/thriving_fcl/article/details/73381217

Attention機制在NLP上最早是被用於seq2seq的翻譯類任務中，如Neural Machine Translation by Jointly Learning to Align and Translate這篇文章所說。

之后在文本分類的任務中也用上Attention機制，這篇博客主要介紹Attention機制在文本分類任務上的作用，與seq2seq中使用的可能會略有不同，主要參考的論文是Hierarchical Attention Networks for Document Classification。這里的層次Attention網絡並不是只含有Attention機制的網絡，而是在雙向RNN的輸出后加了Attention機制，層次表現在對於較長文本的分類，先將詞向量通過RNN+Attention表示為句子向量，再將句子向量通過RNN+Attention表示為文檔向量。兩部分的Attention機制是一樣的，這篇博客就不重復說明了。

一、Attention 的作用

在RNN的文本分類模型中，可以把RNN看成一個encoder，將需要被分類的文本表示為一個dense vector，再使用全連接層與softmax輸出各類別的概率。

在具體的文本的表示上，可以將RNN最后一個時刻的輸出作為文本的表示，也可以綜合考慮每個時刻的的輸出，將它們合並為一個向量。在tagging與classication的任務中常用雙向RNN(下文寫作BIRNN)，每個時刻的輸出向量可以理解為這個時刻的輸入詞在上下文的語境中對當前任務的一個貢獻。BIRNN如下圖所示

BIRNN

根據人類的閱讀習慣進行思考，我們在閱讀的時候，注意力通常不會平均分配在文本中的每個詞。再回到上面的文本表示，如果直接將每個時刻的輸出向量相加再平均，就等於認為每個輸入詞對於文本表示的貢獻是相等的，但實際情況往往不是這樣，比如在情感分析中，文本中地名、人名這些詞應該占有更小的權重，而情感類詞匯應該享有更大的權重。

所以在合並這些輸出向量時，希望可以將注意力集中在那些對當前任務更重要的向量上。也就是給他們都分配一個權值，將所有的輸出向量加權平均。假設輸出向量為 $h_{t}$