BLEU、ROUGE評價指標
bleu,Rouge一般在翻譯里用
bleu
bltk工具箱中就有bleu的評估指標實現
bleu通過比較預測語句和參考語句里的n-gram(從1-gram到4-gram)的重合程度。顯然,重合程度越高,譯文的質量就高。1-gram主要是用於比較單個單詞的准確率,而2~4-gram則用於衡量句子的流暢性。
這個評價指標,關心的是預測語句的准確率,而沒有考慮到預測語句的缺失率。
即計算的時候,用預測語句的n-gram個數做分母
分子是相同gram的個數
ROUGE
rouge就只計算了預測語句的召回率。
在實際的神經網絡機器翻譯出的語句通常是比較流暢的,但有時會瞎翻譯,
即計算的時候,用參考譯文的n-gram個數做分母。
分子是相同gram的個數
參考: