1. 前言
本文介紹一種無監督的機器翻譯的模型。無監督機器翻譯最早是《UNSUPERVISED NEURAL MACHINE TRANSLATION》提出。這個模型主要的特點,無需使用平行語料庫,使用去噪和回譯的步驟構建NMT系統。
2018年Facebook人工智能實驗室再次公布了有關無監督神經網絡翻譯的最新模型《Phrase-Based & Neural Unsupervised Machine Translation》,相當於用 10 萬個參考譯文訓練過的監督模型。“在機器翻譯領域,這是一個重大的發現,盡管世界上有超過 6500 種語言,但可利用的翻譯訓練資源池要么不存在、要么就是太小不足以運用在現有系統中。”
2. Facebook論文原理
Neural Unsupervised Machine Translation介紹了兩個模型:
- 基於短語的無監督翻譯模型 (PBSMT)
- 基於神經網絡的無監督翻譯模型 (NUMT) 。
2.1 Unsupervised MT(無監督學習)步驟
在論文中介紹了Unsupervised MT(無監督學習)的主要過程:
- word-by-word Initialization(詞到詞的參數初始化)
- Language Modeling(語言建模,有去噪效果)
- Iterative Back-translation(迭代回譯,自動生成雙語對照)
偽代碼的形式如下,偽代碼中的步驟少了一個word-by-word Initialization的過程:
再看一個論文中介紹3個過程的圖:
- 圖A是兩個單獨的語言語料庫的數據
- 圖B是第一原則:word-by-word Initialization初始化。 這兩個單獨的語言語料庫大致對齊。可以通過單詞對齊的形式進行。
- 圖C是第二個原則:Language Modeling語言建模。分別學習兩個語言模型。語言模型有去噪的作用(彈簧連接的點代表噪聲)。
- 圖D是第三個原則:Iterative Back-translation反向翻譯。從觀察到的源句(填充紅色圓圈)->預測目標句子(藍色的叉)。然后從翻譯目標句子(藍色的叉)->重建觀察到的源句(填充紅色圓圈)。
這4幅圖簡單的介紹了Unsupervised MT(無監督學習)的3個過程。
2.2 Back-translation回譯原理
回譯的過程《UNSUPERVISED NEURAL MACHINE TRANSLATION》提出的,結構如下圖所示:
首先右邊的L1 decoder和L2 decoder分別為兩個語言的語料庫的Language Modeling(語言模型)。
左邊的shared encoder是兩個語料庫公用的encoder,並且它的embedding是fixed cross-lingual embedding(交叉語言的vocabulary)。
Back-translation的過程:
- L1 sentence->shared encoder(L1)->L2 decoder->predict L2 sentence
- predict L2 sentence->shared encoder(L2)->L1 decoder->L1 sentence
這樣就算完成了一個Back-translation的過程,這個過程會去調整fixed cross-lingual embedding的值。
2.3 PBSMT
PBSMT是phrase-based statistical
machine translation(基於短語的機器翻譯)。PBSMT用來生成無監督的短語表 (phrase-table) 。
Facebook的研究人員上述原則應用於基於經典計數統計方法的另一個機器翻譯模型,叫做(基於短語的機器翻譯)。通常而言,這些模型在訓練數據(也即翻譯好的語言對)較少時表現更好,這也是首次將其應用於無監督的機器翻譯。基於短語的機器翻譯系統,能夠得出正確的單詞,但仍然不能形成流暢的句子。但是,這種方法取得的結果也優於以前最先進的無監督模型。
3. 數據結果展示
這個結果在無監督機器翻譯領域是有着顯著的提升的。最好的方式是PBSMT+NMT的模型結構,這個結果給資源比較少的小語種翻譯帶來了希望。
4. 總結
Facebook的這篇論文,給無監督機器翻譯領域帶來了重大發現,使得機器翻譯可以不再依賴大規模的平行語料庫的標注,也使得在全世界6500種預語言中的小語種翻譯帶來了前所未有的突破。並且研究人員表示,這種無監督方法不僅適用於機器翻譯,也可以擴展到其他領域,讓智能體在使用無標記數據的情況下,完成只有極少甚至沒有訓練數據的任務。這是機器翻譯以及無監督學習的一項重大突破。