[NLP]文本摘要介紹

本文轉載自查看原文 2020-07-05 21:36 1012 NLP/ 文本摘要

一、摘要的主要分類

$文本摘要：從數據上來看，分為利用無監督數據（自動摘要）和有監督數據兩種方法 $

$文本摘要：從獲取方法上看，分為抽取式摘要（從原文中抽取多個句子組成概要）和生成式摘要（先是自然語言理解進行篇章理解，然后用自然語言生成來生成摘要）兩種方法。$

深度學習模型：BertSum,XLNet等。

二、抽取式摘要方法

1、基於無監督的抽取方法：page-rank

主要處理流程：先構造圖（其中一個句子是一個結點，結點之間的邊是句子之間的關系），然后利用page-rank算法計算每個句子的得分score，最后根據score獲取top 3/5個句子作為最終生成的摘要。

構造圖的方法：將所有的句子轉換成向量（假設有100個句子），根據簡單的公式計算（如余弦相似度，歐式距離）等計算句子之間的相似度，最后得到一個句子相似度矩陣（100*100）。

注：Page-rank:是一張有向圖，結點是一個網頁，邊是兩個網頁之間的關系（這個關系是可進可出的，比如說A,B兩個網頁，A指向B表示根據B可以得到A的網址，或者說B比A更高一個層級是更重要的網頁），每個結點的得分是指向它的結點的數量以及指向它的結點的權重兩個方面來確定。

具體計算過程如下：

假設有三個點，A指向B，B指向C，C指向A和B，分別計算A、B、C的score。(設d=0.85)

迭代算法：不斷迭代計算A、B、C的得分，當所有得分不再變化時，則迭代停止。

2、基於有監督的抽取式摘要方法：根據訓練數據，提取特征向量，構造機器學習模型。

三、生成式摘要方法

基於有監督的生成式摘要方法：使用深度學習模型，如seq2seq模型等來做。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 NLP文本摘要方向綜述 Serverless 實戰：如何結合 NLP 實現文本摘要和關鍵詞提取？基於seq2seq的文本摘要及相關數據集介紹基於TextRank算法的文本摘要文本自動摘要概述文本自動摘要：基於TextRank的中文新聞摘要 NLP 文本預處理 NLP -- 文本特征構造 NLP文本分類 BERT生成文本摘要