close

簡易code:

from nltk.translate.bleu_score import sentence_bleu


def cal_bleu_score(references, candidates):
    score = sentence_bleu(references, candidates, weights=(1, 0, 0, 0))
    return score

 

 

 

 

BLEU 全名 bilingual evaluation understudy

 由 K Papineni 等人在2002年 BLEU: a Method for Automatic Evaluation of Machine Translation 這篇提出

指對於相同來源句子的自動翻譯與一或多個人工參考翻譯之間的差異所做的量測

評估的方式就是翻譯句子與參考翻譯的差異

翻譯的句子越接近參考翻譯那就得到越高的分數

簡而言之BLUE:一句機器翻譯的譯文與其對應的幾個參考翻譯作比較,算出一個平均分數。這個分數越高說明機器翻譯得越好。

BLEU的優缺點很明顯

 優點 : 方便,快速,有參考價值
 缺點:
1.  不考慮語言表達(語法)上的準確性
2.  翻譯精準度會受常用詞的干擾
3.  短譯句的翻譯精準度有時會較高
4.  沒有考慮同義詞或相似表達的情況因此合理翻譯可能會被否定;

以下是四個等級的BLEU評估方式的示意圖,一般BLEU最多就取到4

1-gram

2-gram

3-gram

 

 

4-gram

--


arrow
arrow
    創作者介紹
    創作者 低階ㄇㄋ 的頭像
    低階ㄇㄋ

    蟲匯聚之所

    低階ㄇㄋ 發表在 痞客邦 留言(0) 人氣()