論文泛讀·Adversarial Learning for Neural Dialogue Generation

本文轉載自查看原文 2018-01-03 09:28 1538 NLP自然語言處理/ Policy Gradient Training/ NLP/ 對抗學習/ 生成器/ GAN/ 增強學習/ 判別器

導讀

　　這篇文章的主要工作在於應用了對抗訓練（adversarial training）的思路來解決開放式對話生成（open-domain dialogue generation）這樣一個無監督的問題。
　　其主體思想就是將整體任務划分到兩個子系統上，一個是生成器（generative model），利用seq2seq式的模型以上文的句子作為輸入，輸出對應的對話語句；另一個則是一個判別器（discriminator），用以區分在前文條件下當前的問答是否是和人類行為接近，這里可以近似地看作是一個二分類分類器。兩者結合的工作機理也很直觀，生成器不斷根據前文生成答句，判別器則不斷用生成器的生成作為負例，原文的標准回答作為正例來強化分類。在兩者訓練的過程中，生成器需要不斷改良答案來欺騙生成器，判別器則需要不斷提高自身的判別能力從而區分機造和人造答案直至最后兩者收斂達到某種均衡。
　　以往的模型受限於訓練目標以及訓練方式，其生成的結果往往是遲鈍籠統的甚至都很簡短（如果可以的話，所有的對話我都可以回答“呵呵”，很明顯這樣的回答是不符合常識的）。所以這樣一種博弈式的訓練方式來取代以往相對簡單固定的概率似然來優化這樣一種無監督的開放任務顯然是很有意義的想法。不過這樣的方法遇到困難也很明顯，GAN和NLP一直八字不合，很難很好的融合。和之前的工作SeqGAN類似，這篇工作也采取了增強學習來規避GAN在NLP中使用的難點，並作出了更多的嘗試。

補充知識：

　　生成器G就是一個seq2seq模型，輸入是歷史對話x，通過RNN來對語義進行向量表示再逐一生成回答的每個詞，從而形成回答y
　判別器D是一個輸入為歷史對話x和回答y二元組的一個二分類器，使用了hierarchicalencoder，其中機造回答組合為負例Q−({x,y})，人造回答組合為正例Q+({x, y})。

主要解決了什么問題：

　　以 GAN 為目標，生成自然語言

在本任務中增強學習的一個很大的問題在於我們的估價都是針對一整個回答的，判別器只會給出一個近似於對或者不對的反饋。這樣的模式存在一個很大的問題是，即使是很多被判斷為有問題的句子，其中有很大一部分語言成分是有效的，如文中的例子“what’s yourname”，人類回答“I am John”，機器回答“I don’t know”。判別器會給出“I don’t know”是有問題的，但無法給出I是對的而后面的don’t know是錯的，事實上機器沒有回答he/she/you/they而是I本質上是需要一個肯定的正反饋的。

判別器只告訴機器對或錯，卻不告知哪部分對和哪部分錯，這對訓練帶來了很大隱患。

采用了什么方法：

　　把序列評分拆開來算，這樣就能算到前綴的評分，做到局部評價的反饋。為了防止訓練過擬合，每次只是從正例和負例的子序列中隨機選取一個來訓練。Reward for EveryGeneration Step

Teacher Forcing模型：

　　在以往的工作中，D效果非常好而G的效果非常糟糕會帶來訓練效果的下降。試想一下一個G所有產生的答案都被D駁回了，在這段時間內G的所有反饋都是負反饋，G就會迷失從而不知道向什么方向優化會得到正反饋，所以理想的情況下G和D是交替訓練上升的。

　　在控制D和G訓練節奏的同時，這篇工作中又采用了一種類似強制學習的方式來嘗試解決這個問題。每次在正常的增加學習后會讓生成器強行生成正確答案並從D得到正向的反饋，從而每次都能有一個正向優化方向的指示。這樣的行為類似於學校老師強行灌輸知識，也很類似於之前的professor-forcing算法。