《Convolutional Neural Network Architectures for Matching Natural Language Sentences》句子匹配

本文轉載自查看原文 2018-05-26 17:54 1152 論文閱讀/ 自然語言處理

1. 基於CNN的句子建模

這篇論文主要針對的是句子匹配(Sentence Matching)的問題，但是基礎問題仍然是句子建模。首先，文中提出了一種基於CNN的句子建模網絡，如下圖：

圖中灰色的部分表示對於長度較短的句子，其后面不足的部分填充的全是0值(Zero Padding)。可以看出，模型解決不同長度句子輸入的方法是規定一個最大的可輸入句子長度，然后長度不夠的部分進行0值的填充；圖中的卷積計算和傳統的CNN卷積計算無異，而池化則是使用Max-Pooling。

下圖示意性地說明了卷積結構的作用，作者認為卷積的作用是從句子中提取出局部的語義組合信息，而多張Feature Map則是從多種角度進行提取，也就是保證提取的語義組合的多樣性；而池化的作用是對多種語義組合進行選擇，過濾掉一些置信度低的組合（可能這樣的組合語義上並無意義）。

2. 基於CNN的句子匹配模型

下面是基於之前的句子模型，建立的兩種用於兩個句子的匹配模型。

2.1 結構I

模型結構如下圖：

簡單來說，首先分別單獨地對兩個句子進行建模（使用上文中的句子模型），從而得到兩個相同且固定長度的向量，向量表示句子經過建模后抽象得來的特征信息；然后，將這兩個向量作為一個多層感知機(MLP)的輸入，最后計算匹配的分數。

這個模型比較簡單，但是有一個較大的缺點：兩個句子在建模過程中是完全獨立的，沒有任何交互行為，一直到最后生成抽象的向量表示后才有交互行為（一起作為下一個模型的輸入），這樣做使得句子在抽象建模的過程中會喪失很多語義細節，同時過早地失去了句子間語義交互計算的機會。因此，推出了第二種模型結構。

2.2 結構II

模型結構如下圖：

圖中可以看出，這種結構提前了兩個句子間的交互行為。

　　首先從Sentence x中任取一個向量xa，再從Sentence y中將每一個向量和xa進行卷積操作

同理以上操作，將兩個句子中所有的向量兩兩組合，構成2D向量 $k 1$

從而得到Layer-2，然后進行2×2的Max-pooling：

后續的卷積層均是傳統的二維卷積操作，形式化表述如下：

與第一層卷積層后的簡單Max-Pooling方式不同，后續的卷積層的Pooling是一種動態Pooling方法，這種方法來源於參考文獻[1]。

1. 模型訓練及參數

2. 實驗結果

一共做了三個實驗，分別是(1)句子自動填充任務，(2)推文與評論的匹配，以及(3)同義句識別；結果如下面的圖示：

其實結構I和結構II的結果相差不大，結構II稍好一些；而相比於其他的模型而言，結構I和結構II的優勢還是較大的。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。