一,文本摘要概述
文本自動摘要是利用計算機按照某類應用自動地將文本或文本集合轉換成簡短摘要的一種信息壓縮技術。
代表系統有:
- 密歇根大學的NewsInEssence。
- 哥倫比亞大學的NewsBlaster。
二,文本摘要分類
三,文本摘要方法
三種摘要方法
- 抽取式摘要:直接從原文中抽取已有的句子組成摘要。
- 壓縮式摘要:抽取並簡化原文中的重要句子構成文摘。
- 理解式摘要:改寫或重新組織原文內容形成最終文摘。
1,抽取式摘要
三個模塊
- 句子重要性評估
- 信息冗余句子去重
- 根據長度、字數等約束生成最終摘要。
(1)句子重要性評估的方法
- 啟發式規則:例如考慮句子的位子、詞頻、與比標題的相似度等。
- 機器學習方法:句子分類、最優化方法。
- 圖模型方法:TextRank(PageRank的無向圖模型)、HITS算法。
下圖為用機器學習的方法來對句子的重要性進行分類的圖解。
TextRank方法如下:
(2)冗余句子消除
- CSIS
- MMR
2,壓縮式摘要
核心模塊:句子壓縮
- 可視為樹的精簡問題。
- 可視為01序列標注問題。
3,理解式摘要
(1)改寫或重新組織原文內容形成文摘
例如AMR方法
(2)基於謂詞論元結構的理解式摘要
核心思想:選擇並重組概念與行為。
(3)端到端的摘要方法
代表系統有:
- 哈佛大學的OpenNMT
- 斯坦福大學的Seq2Seq摘要模型,包含了copy機制和coverage機制。
四,文本摘要評價
自動評價
- ROUGE
- BE
人工評價