機器翻譯評測——一種檢測批量譯文是否參考機器翻譯的方法


  ◆版權聲明:本文出自胖喵~的博客,轉載必須注明出處。

  轉載請注明出處:http://www.cnblogs.com/by-dream/p/7669139.html 

 

  首先解釋一下幾個名詞,由於我的另外兩篇文章還沒有寫出來,因此這里需要先介紹一下:

  翻譯評測集:以下簡稱評測集,一組由原文和譯文組成的文件,譯文一般由專業的譯員根據原文翻譯獲得,在計算BLEU的時候只需要把譯文作為參考答案使用即可。

  BLEU:一種機器翻譯評價指標,用於分析候選譯文和參考譯文中n元組共同出現的程度,由IBM於2002年提出。通常需要用譯文和翻譯翻譯評測集共同計算獲得分值,從而判定譯文與評測集之間的相似程度。

 

   為什么要寫這么一篇文章呢?

  翻譯團隊在制作翻譯評測集時經常需要雇佣一些譯員和翻譯公司進行翻譯工作,由於制作的評測集需要用來評價各個機器翻譯引擎,所以該譯文絕對不能參考機器翻譯,那么如何得知譯員是否有參考機器翻譯引擎就成了一個比較重要的問題。目前市面上翻譯的成本大概在千字120-150元人名幣,我們通過這種方法可以有效的避免無效翻譯,節省成本。當有翻譯公司或個人完成翻譯工作后,我們用這種方法來衡量翻譯的內容是否為我們可用的內容。事實證明,我這種方法確實很有效。

 

  此方法最便捷的方式就是通過腳本,可以快速定位出現有譯文參考了哪些翻譯引擎,並且可以快速定位到句子,然后人工分析句子后,就可以知道是否參考了機器翻譯。

 

  我們來看看具體的過程:

  首先我們准備一份500句的英文語句,遞交給翻譯公司,需求是規定的時間內完成英文翻譯中文的任務。

  在遞交之后,我們使用市面上現有的機器翻譯引擎(百度翻譯、Google翻譯、有道翻譯、Bing翻譯、小牛翻譯、搜狗翻譯、騰訊翻譯君翻譯)對這份譯文進行翻譯,得到各個引擎的中文結果文件,我們把這些文件做為將來要評測翻譯公司翻譯結果的一個評測集。

  待翻譯公司呈交翻譯結果后,我們用之前制作好的各個機器翻譯引擎翻譯結果的評測集針對譯員的翻譯結果進行BLEU的計算。我們得到如下數值:

  百度:68.4, 89.4/73.5/63.2/56.1(BP=0.985,ratio=0.985,hyp_len=60808,ref_len=61743)

  騰訊:45.96, 82.3/56.8/38.9/26.5(BP=0.981,ratio=0.981,hyp_len=60244,ref_len=61398)

  搜狗:44.92, 81.1/55.8/37.8/25.7(BP=0.980,ratio=0.981,hyp_len=59788,ref_len=60967)

  小牛:42.48, 80.5/53.9/35.7/23.3(BP=0.975,ratio=0.976,hyp_len=59451,ref_len=60940)

  Bing:42.14, 81.5/54.0/36.0/23.9(BP=0.956,ratio=0.956,hyp_len=57653,ref_len=60276)

  google:41.03, 80.8/52.5/34.3/22.5(BP=0.964,ratio=0.965,hyp_len=58155,ref_len=60260)

  有道:40.01, 80.5/52.2/34.1/22.2(BP=0.947,ratio=0.949,hyp_len=56675,ref_len=59735)

  一般我們只看第一個數值:

  根據經驗來看,一般BLEU的值的差距之間會比較小,例如上圖中除百度之外的其他所有引擎,因此我們可以判斷出百度的分值的異常,很有可能就是因為譯文有大量參考百度機器翻譯的原因,為了證實這個結論,我們需要用百度的機器翻譯譯文和人工翻譯的譯文進行比較,可以使用“比較軟件Beyond Compare”,也可以使用我自己實現的same.py腳本,可以直接看出百度的機器翻譯譯文和人工翻譯的譯文中完全相同的句子。

 

  如上圖所示,紅色部分是兩篇譯文直接有差距的地方,白色底色的部分就是完全相同的句子。

  這時候我們再次提取出這些完全相同的句子,BLEU如果特別高,基本就說明了參考的可能性越大,這時候我們對這些句子進行流暢度和翻譯忠實度兩個標准進行評判,如果句子本身質量特別高,都沒有問題,那么說明百度的翻譯質量非常高,已經接近了人翻,但是一般情況下人工評測完的結果都是這些句子的質量不是特別好,那么就說明這些句子並不是來自人翻,而是直接采用了機器翻譯的結果。

  之前合作的幾家翻譯公司提供過來的譯文經過這種方法的計算后,均發現了譯文有參考翻譯引擎的嫌疑,事后經過人工二次確認,發現翻譯公司確實沒有按照規定完成任務,譯員在翻譯的過程中參考了機器翻譯,甚至有些直接采用了一些有問題的機器翻譯的結果。

  說實話人都有惰性,一般讓一個譯員翻譯過多的譯文,難免會出現這樣的情況,只要我們掌握了這個方法,就可以有效的避免這樣事情的發生了。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM