close
簡易code:
from nltk.translate.bleu_score import sentence_bleu def cal_bleu_score(references, candidates): score = sentence_bleu(references, candidates, weights=(1, 0, 0, 0)) return score
BLEU 全名 bilingual evaluation understudy
由 K Papineni 等人在2002年 BLEU: a Method for Automatic Evaluation of Machine Translation 這篇提出
指對於相同來源句子的自動翻譯與一或多個人工參考翻譯之間的差異所做的量測
評估的方式就是翻譯句子與參考翻譯的差異
翻譯的句子越接近參考翻譯那就得到越高的分數
簡而言之BLUE:一句機器翻譯的譯文與其對應的幾個參考翻譯作比較,算出一個平均分數。這個分數越高說明機器翻譯得越好。
BLEU的優缺點很明顯
優點 : 方便,快速,有參考價值
缺點:
1. 不考慮語言表達(語法)上的準確性
2. 翻譯精準度會受常用詞的干擾
3. 短譯句的翻譯精準度有時會較高
4. 沒有考慮同義詞或相似表達的情況因此合理翻譯可能會被否定;
以下是四個等級的BLEU評估方式的示意圖,一般BLEU最多就取到4
1-gram
2-gram
3-gram
4-gram
--
文章標籤
全站熱搜