【NLP】MT中BLEU評分機制

本文轉載自查看原文 2018-09-28 15:10 1594 ML

參考博客：https://blog.csdn.net/guolindonggld/article/details/56966200

原著論文：http://www.aclweb.org/anthology/P02-1040.pdf

BLEU是2002年IBM研究人員提出的一種自動評價MT翻譯質量的方法。其本質是比對MT給出的結果（稱為候選翻譯，candidate）和事前知道的比較好的若干個翻譯樣本（稱為參考翻譯，reference，通常是人工翻譯給出的數據），比較兩者之間的相似度。

在計算這個相似度的時候，最基本的策略是從candidate中逐步取出一些內容，考察這些內容，去檢查各個參考翻譯中是否存在相同的內容。如果相同的內容出現頻率越高，說明candidate的翻譯越准確。將這個頻率量化為某個指標P (這個指標是針對某個內容子集而言的)。當我們把candidate中所有信息都考察完畢，沒有漏掉的東西之后，加和所有的指標P，所得到的分數越高，自然翻譯就是越准確的。

那么具體取出的是什么內容？很自然想到的是單個單個的詞。不過單個詞的抽出內容（所謂的1-gram詞模型）的一個問題是常用詞陷阱。比如candidate中含有大量的the，in這類常用詞但是翻譯質量並不高時，由於是常用詞，必然也在所有的reference中也都有出現，反而會導致分數比較高。為了解決這個問題，我們可以做兩點改進：

1. 將1-gram升高為N-gram，加強匹配的嚴格性。不過直接將此模型提升到N-gram，可能會導致太嚴格，所以可以折中，以一定的權重將1-gram，2-gram... N-gram各個模型得到的值做一個平均作為最終的分數。這個平均一般是加權幾何平均。

2. 另一個想法，則是對量化指標這個過程做些調整。之前沒有具體說明量化指標的過程是怎么做的，不過可以感到，需要一個機制來統合而不是那么傻乎乎地去計算頻率。比如某個詞或詞組在candidate中出現了好幾次該怎么算，不同reference中出現次數又不相同又該怎么辦

綜合上述考慮，BLEU給出的P_N值的計算公式是min( candidate.count(w), max(reference1.count(w), reference2.count(w)... referenceN.count(w) ) ) / candidate.count(w) 。也就是說，針對某個從candidate中選出的詞或詞組w，首先求出各個reference中其出現次數的最大值，然后取這個值與candidate中w出現次數兩者中較小的值。然后將這個值除以candidate中w出現次數。首先可以確定，這個值肯定是小於等於1的。

其次，上面這個公式是針對一個要素w的情況，實際上翻譯結果中有w1,w2...wn那么多，那么這些結果的所有分子加起來除以所有分母加起來，得到的就是P_N了。

當然不要忘了，之前我們說可以將1,2...N-gram的結果都要拿來用。另外對加權幾何平均進行一個對數化處理，於是我們就得到了

這樣一個公式了。

由於最外面套了一個exp，而exp里面的玩意兒必然小於0，所以最終產出肯定是一個小於1的正值。

這樣看似不錯了。不過還有BLEU的第二個陷阱需要解決，即短句陷阱。比如中文中有一句“貓XXXX”的句子，那么英語翻譯時幾乎必然會出現the cat這個詞組。如果MT的翻譯結果就是“the cat”，此時candidate長度就只有2，因此也就只能做到1-gram和2-gram的評估。然而不合理的地方在於，即便是漏譯了很多內容，在評估模型看來，P1和P2還是有可能會比較高的。因為所有reference中都幾乎必然出現the cat這個詞組。

換言之，目前模型對於短翻譯句的評估還不是很合理，原因是當candidate長度過短時，我們只能做到有限的N-gram模型就不得不作罷。

為了修正這個錯誤，BLEU提出的解決方案是引入BP（Brevity Penalty）即過短懲罰。相比於上面復雜的計算，BP的計算就要簡單很多了，首先從reference中找出長度與candidate最為相近的一條。如果此條長度大於candidate長度，那么定義BP為exp(1 - r/c)。反之，如果candidate長度大於最接近的reference長度，那么直接定義BP為1。

將BP乘以上面算式算出的指標，便可得到一個大於0小於1的BLEU分數了。

總的公式：

一般MT研究中，BLEU作為標桿，有比較重要的意義。各種MT模型的目標都是為了讓BLEU上升。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 ELASTICSEARCH 搜索的評分機制 Elasticsearch 搜索的評分機制 elasticSearch(5.3.0)的評分機制的研究 Solr In Action 筆記(2) 之評分機制(相似性計算) 【NLP】BLEU值【NLP-00-3】BLEU計算 Elasticsearch 打分機制 elasticsearch打分機制 Lucene的評分(score)機制研究 NLP中的對抗樣本