問題的提出:
機器翻譯的研究必然伴隨着翻譯質量評價,質量評價是研究翻譯領域不可或缺的反饋環節。評價譯文質量的應用需求十分廣泛,
不僅機器翻譯系統需要評測和對比,在譯文的出版編輯、語言翻譯教學等領域也需要對譯文的質量進行評價。譯文質量評價是一個
主觀性較強的問題,評分的高低實質上是對評價者而言譯文的可接受程度。同一個譯文,不同的評價者或同一個評價者多次翻譯的
結果可能並不完全一致。
面對海量譯文,人工評價顯得越來越力不從心。尤其是在機器翻譯快速發展的今天,需要快速發現譯文中的錯誤、調節翻譯系
統中的參數、評價系統性能、進行不同系統的比較等,使得質量自動評價的研究也成為熱點。2010年,ACL首次將翻譯評價標准和
機器翻譯、系統綜合一起列為統計機器翻譯的三大研討問題。
翻譯評價研究分類:
(1)根據研究對象的不同來分類
(2)根據評價方式的不同來分類
(3)根據實現的方法不同來分類
在基於以上三點的情況下有從有無參考譯文、評價粒度及對語言知識的依賴程度等進一步細分。
根據譯文的來源:
人類譯文:
人類譯文的自動評價更多的模擬專家評價的思想。人類譯文自動評價的方式包括評分和診斷兩類,實現評價是通常有加分法和減
分法兩種:
加分法是通過累計正確的得分點的分數來對譯文進行打分
減分法是基於譯文中的錯誤從滿分值中做減法。
大多數質量評價基於錯誤分類方案進行,即根據錯誤數及錯誤的嚴重程度實行減分。而錯誤分為兩類,大錯和小錯。大錯是指譯文
基本成分的錯,錯誤將導致語義混亂。小錯是指使用了不恰當或不正確的表達方式或語法。當然,評價譯文質量的高低常常還有一個人
們對錯誤的容忍度的問題,因此關於錯誤體系的構建成為核心研究問題,例如美國翻譯家協會ATA將錯誤划分為22種類型,不同類型的
錯由不同類型的分值。
對於學習者譯文評價的研究也在開展,研究以加分法為主,首先需要有專家參與確定譯文的評分點,然后通過統計評分點的出現情
況並綜合其他特征,如譯文的形式特征、譯文和原文的對其特征等進行回歸分析,從而得到譯文的評分。
機器譯文的評價方法:
機器譯文自動評價的研究今年來如雨后春筍般出現,大致分為以下三類:診斷性評價、評分和排序。
診斷性評價:
診斷性評價今年來開展的工作最少,一種方法為人工將測試句中的重要語言測試點挑出來並分類,然后在機器譯文中自動檢測這些
測試點是否被正確翻譯出來,從而評價譯文質量。測試點分為詞語、成語、詞法、基本語法、中級語法和高級語法六類分別設定對質量
影響的權重然后利用加分法進行評分。另一種方法提出的用於 “ 863 ” 機器翻譯評測的WoodPecker,對檢測點實現了自動提取,減少了
對人工的依賴。
評分:
評分是最多的自動評價方式。評價機器譯文時,根據有無參考譯文又分為兩種研究。有參考譯文的評價是通過將待評價譯文和參考
譯文作比較,根據相似程度評分,這種研究居多。而不需要參考譯文的評分也稱為譯文質量估計。根據譯文的特征將譯文質量簡單分為
“ 好 ” 或 “ 壞 ” ,或者區分人類譯文和非人類譯文。質量估計被用來做二分類問題。
有參考譯文:
依賴參考譯文的評價,參考譯文就是標准答案,與參考譯文越相似,譯文質量越高,這個假設是評價算法的基本思想。而待求譯
文和參考譯文之間相似度的計算的方法多種多樣,這些方法根據語言粒度可以分為詞匯層面的相似和句子或語篇層面的相似,根據對語
言知識的依賴程度又可以分為非語言、輕語言和重語言。
非語言的方法通常不需要語言層面的分析來計算相似,常見的有四種:
(1)基於編輯距離的方法如WER、PER、TER等。
(2)基於准確率的方法如BLUE、NIST、SIA等。
(3)基於召回率的方法如ROUGE等。
(4)基於綜合指標的方法如GTM、PORT等。
輕語言的方法需要利用一些語言信息進行質量評價,如詞性POS、同義詞典等。著名的算法有METEOR、METEOR-NEXT等
重語言的相似求解方法則對譯文進行較多的語法或語義層面的分析,從句法結構、重述、近義、文本蘊含等語言方面計算待評價譯
文和參考譯文的相似度。
排序法:
排序法適用於對一組譯文進行評價,根據質量高低排序。
評價排序的優點有三:
(1)人工評測是,排序比打分更容易
(2)人工排序的評價的一致性比打分一致性更高。
(3)更適用於系統之間的比較。
可以將BLEU得分、依存關系匹配、困惑度融合到SVM學習方法中,根據SVM的得分對一組機器譯文的優劣進行排序。影響譯文
質量的因素是多方面的,常見的包括譯文的流利度和充分性或可理解性等。