第一篇：Natural Language Processing (Almost) from Scratch

本文轉載自查看原文 2020-04-09 15:30 803 論文閱讀

一、本文中心內容

　　神經網絡語言模型和詞嵌入的經典論文，核心目標是將訓練好的word embedding去完成詞性標注（POS）、分塊（短語識別CHUNK）、命名實體識別（NER）和語義角色標注（SRL）等任務，並且，本網絡的語言模型只用來預訓練word embedding，然后將其作為具體任務（任務的共同目標是標注）網絡第一層（將詞的one-hot表示變為word embedding）的參數繼續再具體任務中訓練。

　　本文運用到了多任務訓練的模型，即共享one-hot到word embedding的轉化層的參數，在多項任務上進行訓練。統一標注，便於后續介紹，一個具有L層的前向反饋神經網絡

　　本文中的神經網絡分為這幾個部分：

　　首先是詞向量的構建，將一個詞表示為一個向量，即表示為連續空間中的一個點，而不是最原始的one-hot表示。（1）每一個詞表示為一個向量存儲在表中供查詢，lookup table（LW），對於每個詞向量為 $L T_{W} (w) =< W >_{w}^{1}$

$L T_{W} (w) =< W >_{w}^{1}$

　　1、第一層，（通過查表操作將這些單詞索引中的每一個映射為特征向量）輸入層Input window，對於一個輸入序列，每一個詞對應一個tag並且有一個超參數k，根據特征個數進行查表曹祖，將輸入表示為一個矩陣，並且可以拼接為一個固定長度的向量。

　　2、線性層，也就是第三層，和標注神經網絡類似，將輸入特征向量進行線性變換

　　3、非線性變換層：進行hardtanh變換

　　4、線性輸出層：根據目標函數進行損失函數選擇，一般選擇softmax

其他考慮，對於一個長度為T的序列，將會產生T個輸入，每一個詞組成一個輸入。並且窗口k是一個超參數可以采用CV進行選擇。另外對於窗口小於k的詞，可以添加PADDING詞進行代替。該方法能夠解決大部分的序列標注問題，但是對於SRL問題，常常需要指定某個謂詞作為輸入，此時該方法不能適用，需要考慮句子全部特征。

　　基於句子方法------相比於基於窗口的方法，加入卷積層照顧到全局特征