【nlp】BLEU、ROUGE評價指標


BLEU、ROUGE評價指標

bleu,Rouge一般在翻譯里用

bleu

bltk工具箱中就有bleu的評估指標實現

bleu通過比較預測語句和參考語句里的n-gram(從1-gram到4-gram)的重合程度。顯然,重合程度越高,譯文的質量就高。1-gram主要是用於比較單個單詞的准確率,而2~4-gram則用於衡量句子的流暢性。

這個評價指標,關心的是預測語句的准確率,而沒有考慮到預測語句的缺失率。

即計算的時候,用預測語句的n-gram個數做分母

分子是相同gram的個數

ROUGE

rouge就只計算了預測語句的召回率。

在實際的神經網絡機器翻譯出的語句通常是比較流暢的,但有時會瞎翻譯,

即計算的時候,用參考譯文的n-gram個數做分母。

分子是相同gram的個數

參考:

https://blog.csdn.net/qq_25222361/article/details/78694617

https://www.zhihu.com/question/304798594/answer/567383628


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM