自回歸(Autoregressive,AR)模型 / 非自回歸(Non-autoregressive,NAR)模型


前言

回歸分析(regression analysis)是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法。運用十分廣泛,回歸分析按照涉及的自變量的多少,可分為一元回歸分析和多元回歸分析;按照自變量和因變量之間的關系類型,可分為線性回歸分析和非線性回歸分析。
回歸(regression):Y變量為連續數值型(continuous numerical variable)。

應用現狀

目前主流的神經機器翻譯模型為自回歸模型,每一步的譯文單詞的生成都依賴於之前的翻譯結果,因此模型只能逐詞生成譯文,翻譯速度較慢。Gu等人提出的非自回歸神經機器翻譯模型(NAT)對目標詞的生成進行獨立的建模,因此能夠並行解碼出整句譯文,顯著地提升了模型的翻譯速度。然而,非自回歸模型在翻譯質量上與自回歸模型有較大差距,主要表現為模型在長句上的翻譯效果較差,譯文中包含較多的重復詞和漏譯錯誤等。
非自回歸(Non-autoregressive,NAR)模型並行生成序列的所有標記,與自回歸(AR)模型相比,生成速度更快,但代價是准確性較低。在神經機器翻譯(neural machine translation,NMT)、自動語音識別(automatic speech recognition,ASR)和語音合成(TTS)等不同的任務中,人們提出了包括知識提取和源-目標對齊在內的不同技術來彌補AR和NAR模型之間的差距。在這些技術的幫助下,NAR模型可以在某些任務中趕上AR模型的准確性,但在其他任務中則不能。

AR

AR模型,即自回歸(AutoRegressive, AR)模型又稱為時間序列模型,數學表達式為:
\(y\left( t \right) = \sum\limits_{i = 1}^n {{a_i}y\left( {t - i} \right)} + e\left( t \right)\)
此處的n表示n階自回歸。
AR模型是一種線性預測,利用前期若干時刻的隨機變量的線性組合來描述以后某時刻隨機變量的線性回歸模型。即已知N個數據,可由模型推出第N點前面或后面的數據(設推出P點),所以其本質類似於插值,其目的都是為了增加有效數據,只是AR模型是由N點遞推,而插值是由兩點(或少數幾點)去推導多點,所以AR模型要比插值方法效果更好。
NLP中的 sequence2sequence 和 Transformer 都是AR模型。

NAR

舉例說明:在機器翻譯中,不同於自回歸(Autoregressive Translation , ART)模型需要用已生成的詞來預測下一個位置的詞,非自回歸 (Non-Autoregressive Translation, NART)模型打破了生成時的串行順序,希望一次能夠解碼出整個目標句子,從而解決AT模型所帶來的問題。
與自回歸模型相比,非自回歸(Non-Autoregressive)模型嘗試同時生成一整個序列,從而解決上述三個問題。一個簡單的非自回歸模型直接假設目標序列的每個詞都是獨立的。然而這一獨立性假設過強,顯然與實際問題不符。為了緩解獨立性假設過強的問題,一個方案是引入隱變量z,得到:
${P_\theta }\left( {y|x} \right) = \int_z {{P_\theta }\left( {y|z,x} \right){p_\theta }\left( {z|x} \right)dz} $
假定給定隱變量的前提下,目標序列的每個詞是獨立的,則:
${P_\theta }\left( {y|z,x} \right) = \prod\limits_{t = 1}^T {{P_\theta }\left( {{y_t}|z,x} \right)} $
從上面的公式可以看出,隱變量需要保存關於目標序列的全部信息,才能解碼整個目標序列。因此隱變量的概率分布必須有足夠的復雜度。

semi-NAR

參考:自回歸與非自回歸模型不可兼得?預訓練模型BANG全都要!
自回歸每次會使用已生成的序列作為已知信息預測未來的一個單詞,最終再把每個時間步生成的單詞拼成一個完整的序列輸出。這其中的時延成為了線上使用或者實時使用這些預訓練的自然語言生成模型的瓶頸。
在非自回歸模型中,每個單詞之間沒有依賴關系,整個輸出序列的每個單詞被並行地同步預測。雖然其推斷速度得到了很大改善,但是生成質量卻往往弱於自回歸模型。
為了平衡推斷速度和生成質量,半非自回歸的模型被提出和研究。半非自回歸的經典做法是把非自回歸生成的結果進行多次迭代,但不同半非自回歸模型的算法差異比較大。由於和自回歸相比,非自回歸和半非自回歸的依賴關系學習和生成難度較大,所以它們往往在文本-文本翻譯,或者語音-文本翻譯,文本-語音翻譯等輸入輸出較為對齊的任務上可以提供不錯的生成效果,但是很少在問答、對話、摘要等任務上進行研究,而這些領域被自回歸生成驗證可以擁有不錯的生成質量且在預訓練下得到提升。

業界研究

非系統性總結,持續更新……

微軟-BANG

參考:自回歸與非自回歸模型不可兼得?預訓練模型BANG全都要!
論文:BANG: Bridging Autoregressive and Non-autoregressive Generation with Large Scale Pretraining.
近兩年,預訓練技術的發展極大地提高了自然語言生成的效果,但隨着數據量和模型大小的增加,模型在使用時的推斷耗時也隨之變大。為了降低自回歸生成的時延,並行預測目標語句所有單詞的非自回歸模型被提出。然而,非自回歸和半非自回歸的依賴關系學習和生成難度較大,它們的生成質量往往弱於自回歸模型。針對上述問題,微軟亞洲研究院的研究員們提出了新的自然語言生成預訓練 BANG;並指出自回歸和非自回歸生成可以被統一地理解為,有多大比例的上文信息可以被使用。

BANG 的貢獻主要有:

  • BANG 在大規模預訓練中,通過考慮遮蓋任意長度的前文來溝通自回歸和非自回歸生成;
  • 提出跨流可見的多流注意力機制來實現高效的預訓練,所有單詞在考慮到任意長度前文被遮蓋的前提下都可被並行預測;
  • 對於不同的需求狀況,BANG 支持自回歸微調,非自回歸微調和半非自回歸微調。BANG 第一次把不同的生成方案在同一個預訓練模型里進行支持;
  • 研究員們在 16GB 的英語語料上進行了預訓練,在摘要、對話、問題生成上,BANG 對自回歸效果和半非自回歸效果帶來了顯著的提升,並達到了與非預訓練的 Transformer 自回歸模型相似的評測結果。對於自回歸生成的微調,BANG 也可以和當前主流的自回歸預訓練模型達到相似的結果。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM