文本摘要:從數據上來看,分為利用無監督數據(自動摘要)和有監督數據兩種方法
文本摘要:從獲取方法上看,分為抽取式摘要(從原文中抽取多個句子組成概要)和生成式摘要(先是自然語言理解進行篇章理解,然后用自然語言生成來生成摘要)兩種方法。
二、抽取式摘要方法
1、基於無監督的抽取方法:page-rank
主要處理流程:先構造圖(其中一個句子是一個結點,結點之間的邊是句子之間的關系),然后利用page-rank算法計算每個句子的得分score,最后根據score獲取top 3/5個句子作為最終生成的摘要。
構造圖的方法:將所有的句子轉換成向量(假設有100個句子),根據簡單的公式計算(如余弦相似度,歐式距離)等計算句子之間的相似度,最后得到一個句子相似度矩陣(100*100)。
注:Page-rank:是一張有向圖,結點是一個網頁,邊是兩個網頁之間的關系(這個關系是可進可出的,比如說A,B兩個網頁,A指向B表示根據B可以得到A的網址,或者說B比A更高一個層級是更重要的網頁),每個結點的得分是指向它的結點的數量以及指向它的結點的權重兩個方面來確定。
具體計算過程如下:
假設有三個點,A指向B,B指向C,C指向A和B,分別計算A、B、C的score。(設d=0.85)
迭代算法:不斷迭代計算A、B、C的得分,當所有得分不再變化時,則迭代停止。
2、基於有監督的抽取式摘要方法:根據訓練數據,提取特征向量,構造機器學習模型。
三、生成式摘要方法
基於有監督的生成式摘要方法:使用深度學習模型,如seq2seq模型等來做。