自動文檔摘要評價方法:Edmundson,ROUGE


  自動文檔摘要評價方法大致分為兩類:

(1)內部評價方法(Intrinsic Methods):提供參考摘要,以參考摘要為基准評價系統摘要的質量。系統摘要與參考摘要越吻合, 質量越高。

(2)外部評價方法(Extrinsic Methods):不提供參考摘要,利用文檔摘要代替原文檔執行某個文檔相關的應用。例如:文檔檢索、文檔聚類、文檔分類等, 能夠提高應用性能的摘要被認為是質量好的摘要。

  其中內部評價方法,是比較直接比較純粹的,被學術界最常使用的文摘評價方法,將系統生成的自動摘要與專家摘要采用一定的方法進行比較也是目前最為常見的文摘評價模式。

  下面介紹兩個比較簡單的,也是在自動摘要評價以及自動文檔摘要的相關國際評測中經常會被用到的兩個內部評價方法:Edmundson和ROUGE

(一)Edmundson:

  Edmundson評價方法比較簡單,可以客觀評估,就是通過比較機械文摘(自動文摘系統得到的文摘)與目標文摘的句子重合率(coselection rate)的高低來對系統摘要進行評價。也可以主觀評估,就是由專家比較機械文摘與目標文摘所含的信息,然后給機械文摘一個等級評分。 類如等級可以分為:完全不相似,基本相似,很相似,完全相似等。

  Edmundson比較的基本單位是句子,通過句子級標號分隔開的文本單元,句子級標號包括“。”“:”“;”“!”“?”,並且只允許專家從原文中抽取句子,而不允許專家根據自己對原文的理解重新生成句子,專家文摘和機械文摘的句子都按照在原文中出現的先后順序給出。

  計算公式:             

  每一個機械文摘的重合率為按三個專家給出的 文摘得到的重合率的平均值:

     即對所有專家的重合率取一個均值,Pi為相對於第i個專家的重合率,n為專家的數目。

 

(二)ROUGE:

  ROUGE是由ISI的Lin和Hovy提出的一種自動摘要評價方法,現被廣泛應用於DUC1(Document Understanding Conference)的摘要評測任務中。

  ROUGE基於摘要中n元詞(n-gram)的共現信息來評價摘要,是一種面向n元詞召回率的評價方法。ROUGE准則由一系列的評價方法組成,包括ROUGE-1,ROUGE-2,ROUGE-3,ROUGE-4,以及ROUGE-Skipped-N-gram等,1、2、3、4分別代表基於1元詞到4元詞以有跳躍的N-gram模型。在自動文摘相關研究中,一般根據自己的具體研究內容選擇合適的N元語法ROUGE方法。

  計算公式:

  其中,n-gram表示n元詞,{Ref Summaries}表示參考摘要,即事先獲得的標准摘要,Countmatch(n-gram)表示系統摘要和參考摘要中同時出現n-gram的個數,Count(n-gram)則表示參考摘要中出現的n- gram個數。

      不難看出,ROUGE公式是由召回率的計算公式演變而來的,分子可以看作“檢出的相關文檔數目”,即系統生成摘要與標准摘要相匹配的N-gram個數,分母可以看作“相關文檔數目”,即標准摘要中所有的N-gram個數。

---------------------------------------------------------------------------------------------------------------------------------------------------------------

注:

  1. DUC(Document Understanding Conference)評測是由NIST(National Institute of Standards and Technology)從2001年開始舉辦的摘要評估領域比較有名的一個國際評測。從2008年開始,DUC逐漸轉移到TAC(Text Analysis Conference),依然由NIST舉辦,感興趣的可以參考下面兩個官方鏈接:

http://duc.nist.gov/

http://www.nist.gov/tac/

 

JRSmith©2014 - Feedback

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM