BLEU、ROUGE評價指標

bleu,Rouge一般在翻譯里用

bleu

bltk工具箱中就有bleu的評估指標實現

bleu通過比較預測語句和參考語句里的n-gram(從1-gram到4-gram)的重合程度。顯然，重合程度越高，譯文的質量就高。1-gram主要是用於比較單個單詞的准確率，而2～4-gram則用於衡量句子的流暢性。

這個評價指標，關心的是預測語句的准確率，而沒有考慮到預測語句的缺失率。

即計算的時候，用預測語句的n-gram個數做分母

分子是相同gram的個數

rouge就只計算了預測語句的召回率。

在實際的神經網絡機器翻譯出的語句通常是比較流暢的，但有時會瞎翻譯，

即計算的時候，用參考譯文的n-gram個數做分母。

分子是相同gram的個數

參考：

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 NLP評價性能指標深度學習評價指標搜索評價指標——NDCG sklearn---評價指標交易策略的常用評價指標分類模型評價指標說明人臉識別評價算法指標分類結果評價指標——Kappa系數評價指標1--F1值和MSE keras 分類回歸損失函數與評價指標