機器翻譯技術的現狀


基於規則


基於規則的機器翻譯早在幾十年前即已開發出來,是最早的實用自動翻譯方法。這類翻譯引擎的工作原理是解析源語言句子,分析其結構(例如,確定哪些詞匯用作動詞或名詞),接着將句子轉換為中間的、機器可讀的代碼,然后再將它們轉換為目標語言。


基於規則的機器翻譯的優點是十分精細的翻譯引擎可翻譯廣泛的文本,而不需要像統計機器翻譯一樣使用大量的范例文本訓練翻譯引擎。基於規則的翻譯引擎的缺點是,必須為每個語言對建立自定義的解析軟件和詞典,並且是相當“脆弱”的。例如,它不能很好地處理俚語或隱喻文本。出於這個原因,基於規則的機器翻譯已在很大程度上被統計機器翻譯或混合系統所取代,雖然它在不太常見的語言對中比較有用(因為對應這些語言對,往往沒有足夠多的平行文本訓練統計機器翻譯引擎)。


產品與提供商


此類機器翻譯的主要供應商包括Systran、PROMT、Lucy Software(商業軟件)和Apertium(開源)。針對特定語言的供應商包括CCID(中文)和Toshiba(日文)。Systran從業已經有幾十年歷史,是網頁翻譯的先驅(早在20世紀90年代他們的翻譯引擎就為Babelfish提供網頁翻譯服務了)。Systran覆蓋大多數主要語言對,最近發布了混合規則/統計的翻譯引擎,以提升他們的產品線。



Apertium是由西班牙Universitat d’Alacant主導的開源項目。他們已開發出一種基於開源規則的翻譯引擎,使用戶能夠創建面向任何語言對的自定義翻譯引擎。這為基於規則的翻譯引擎解決了一個重要的問題,即商業供應商不用再投資開發不太常見的語言對的規則機器翻譯引擎,例如,西班牙語←→加泰羅尼亞。開發自定義的引擎是一項龐大的任務,因為其中涉及到開發詞典、解析規則等,這需要有精通源語言和目標語言的語言學家參與。



基於實例


基於實例的機器翻譯類似於統計機器翻譯,因為前者也需要使用大量的平行文本(源句段及其翻譯)來訓練系統。基於實例的翻譯的邏輯是將句子視為經常重復的短語的組合,這些短語可以單獨翻譯並組合起來形成一個譯文。


這種方法的問題是,你需要有一個非常龐大的短語及其譯文的語料庫。這需要大量的數據,還需要短語及其譯文精確配對,而這將需要人工參與,而統計機器翻譯系統的訓練是一個完全自動化的過程。


基於實例的機器翻譯還沒有作為商業服務被廣泛部署。但是,有一個開源平台Cunei使開發人員能夠建立自己的基於實例的機器翻譯引擎(類似於基於規則的機器翻譯平台Apertium)。大部分開發中的和商業用途的翻譯引擎是統計或混合系統。



產品與提供商


基於實例的機器翻譯還沒有獨立的商業化產品或服務,但是你可以找到兩個開源項目Cunei和Marclator。這些開源項目只適用於專業軟件開發人員和系統管理員,並不是面向最終用戶的交鑰匙解決方案。他們都是非常優秀的試驗項目,但是如果你要找一個供用戶使用的平台,還是得找統計機器翻譯平台。



統計


統計機器翻譯是當今使用的最流行的機器翻譯。它的工作方式是使用非常龐大的平行文本(源文本及其翻譯)以及單語語料庫訓練翻譯引擎。系統會尋找源文本和譯文(針對整個句子、句段內的較小的短語或N-grams)之間的統計相關性。然后對源語言句子,去查找概率最大的譯文。翻譯引擎本身沒有規則或語法概念。


統計機器翻譯的主要優點是,不需要像基於規則的機器翻譯一樣,針對每個語言對打造專門的翻譯引擎,只要你有收集有足夠多的文本,你就可以訓練針對任何語言對的通用翻譯引擎。


統計機器翻譯的主要缺點是,如果在翻譯訓練語料庫中沒有相似的資料的文本時,得出的譯文不行。例如,一個使用技術文本訓練的翻譯引擎,在翻譯口語化的文本時效果會很差。因此,需要持續使用與待翻譯材料相似的文本來訓練引擎。但即使有龐大合適的訓練語料,統計機器翻譯通常也不能生成出版質量的文本。統計機器翻譯經常是在不管上下文的情況下翻譯原文,而且譯文語序往往不對。但是,通常情況下,它翻譯的還可以,適合理解。如果你需要出版質量的譯文,則需要對機器翻譯譯文進行人工編輯,很多商業機器翻譯引擎提供了這樣的機器翻譯編輯方案。



產品與提供商


很多公司提供統計機器翻譯,他們大部分使用的是開源翻譯引擎Moses。Moses是機器翻譯行業的一個重要發展里程碑,因為他們不需要重新開發翻譯引擎,只用建立自定義的機器翻譯引擎,並提供平行文本訓練引擎。這使很多公司可以最小的代價推出定制的機器翻譯產品。



- BeGlobal (SDL):BeGlobal是SDL的機器翻譯產品,源自SDL幾年前收購的Language Weaver。BeGlobal使用戶可以將機器翻譯、專業翻譯及機譯編輯結合在一起。一個常見的工作流程是先用機器翻譯引擎翻譯文本,然后再讓翻譯員和編輯審核和修改機器譯文。最后更正的譯文可以回饋到翻譯記憶庫中,以便進一步訓練翻譯機器引擎。


- Google Translate(免費):Google Translate是谷歌基於自有的翻譯引擎和研究技術,提供的免費在線翻譯服務。Google Translate可以翻譯50多種語言,並且被視為非專業化翻譯引擎翻譯質量的標桿。


- Microsoft Bing Translator(免費):微軟也提供類似Google Translate的免費在線翻譯服務,但它還包括供使用者使用互動(WYSIWG)編輯工具給譯文評分和進行譯后編輯的很多選項。對於大量讀者群體的公司來說,這些是特別有趣的選項。這些公司可以利用讀者群來編輯和改進譯文,以使其他用戶受益。除免費在線服務外,Google Translate和Bing Translator還提供付費的機器翻譯API。微軟最近還推出了可免費定制的Microsoft Translator Hub。


- Moses(開源):是一個開源的統計機器翻譯引擎。它已被業界廣泛應用於構建定制的機器翻譯引擎。因為Moses是開源的,所以希望開發定制引擎的業者可以集中精力獲取訓練語料,而不需要編寫自己的統計機器翻譯引擎(這是超越大多數開發人員的能力的一項艱巨任務)


- 越來越多的廠商出售使用Moses為核心引擎的機器翻譯解決方案。這些方案通常為SaaS產品,可為特定的行業提供定制的機器翻譯,例如,Capita Translation and Interpreting、DoMY CE、Firma8、Let’s MT、PangeaMT、Safaba Translation Solutions、Simple Shift和Tauyou。其中最早的供應商之一,是擁有客戶端服務器產品的Asia Online。產品的復雜度取決於所針對的客戶群。廠商們都在致力解決Moses中的設計缺陷,確保其易用性。另一方面他們將其他自然語言處理技術與Moses進行了整合,來提高翻譯的質量。



混合
機器翻譯技術的現狀

混合翻譯引擎結合了基於規則的機器翻譯和統計機器翻譯的元素,以利用每種方法的長處。


這是一個正在發展中的領域,我們預計很多系統將演變成混合平台。混合系統主要有兩類:


使用統計翻譯進行譯后處理和清理的基於規則的引擎、以及以基於規則的引擎引導的統計系統。


在第一種情況下,首先使用基於規則的翻譯引擎翻譯文本,然后使用統計機器翻譯引擎對譯文進行處理,糾正基於規則的翻譯引擎產生的錯誤,或直接替換整個文本(如需要)。在第二種情況下,基於規則的翻譯引擎不翻譯文本,而是為統計機器翻譯引擎提供協助,插入插入元數據(如名詞/動詞/形容詞,現在/過去式,等)。



產品與提供商


有幾家公司提供混合機器翻譯平台,主要面向企業市場,其中包括:


- LinguaSys:Developed Carabao,混合翻譯引擎,針對企業市場。


- PROMT:最初開發的是基於規則的翻譯引擎,之后升級為混合翻譯引擎。


- Systran:開發機器翻譯軟件已有40年歷史,其系統已升級為整合統計和基於規則的混合平台。

原文鏈接:http://www.locren.com/current-and-future-in-mt.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM