關鍵詞抽取:pagerank,textrank


摘抄自微信公眾號:AI學習與實踐

TextRank,它利用圖模型來提取文章中的關鍵詞。由 Google 著名的網頁排序算法 PageRank 改編而來的算法。

PageRank

PageRank 是一種通過網頁之間的超鏈接來計算網頁重要性的技術,以 Google 創辦人 Larry Page 之姓來命名,Google 用它來體現網頁的相關性和重要性。

PageRank 通過網絡浩瀚的超鏈接關系來確定一個頁面的等級,把從 A 頁面到 B 頁面的鏈接解釋為 A 頁面給 B 頁面投票,Google 根據 A 頁面(甚至鏈接到 A的頁面)的 等級和投票 目標的等級來決定 B 的等級。

簡單的說,一個高等級的頁面可以使其他低等級頁面的等級提升。

整個互聯網可以看作是一張有向圖圖,網頁是圖中的節點,網頁之間的鏈接就是圖中的邊。如果網頁 A 存在到網頁 B 的鏈接,那么就有一條從網頁 A 指向網頁 B 的有向邊。

構造完圖后,使用下面的公式來計算網頁 i的重要性(PR值): 

 

 

TextRank

TextRank 公式在 PageRank 公式的基礎上,為圖中的邊引入了權值的概念:

用 TextRank 算法計算圖中各節點的得分時,同樣需要給圖中的節點指定任意的初值,通常都設為1。然后遞歸計算直到收斂,即圖中任意一點的誤差率小於給定的極限值時就可以達到收斂,一般該極限值取 0.0001。

使用 TextRank 提取關鍵詞

現在是要提取關鍵詞,如果把單詞視作圖中的節點(即把單詞看成句子),那么所有邊的權值都為 0(兩個單詞沒有相似性),所以通常簡單地把所有的權值都設為 1。

此時算法退化為 PageRank,因而把關鍵字提取算法稱為 PageRank 也不為過。

我們把文本拆分為單詞,過濾掉停用詞(可選),並只保留指定詞性的單詞(可選),就得到了單詞的集合。假設一段文本依次由下面的單詞組成: 

 

現在將每個單詞作為圖中的一個節點,同一個窗口中的任意兩個單詞對應的節點之間存在着一條邊。然后利用投票的原理,將邊看成是單詞之間的互相投票,經過不斷迭代,每個單詞的得票數都會趨於穩定。

一個單詞的得票數越多,就認為這個單詞越重要。

使用 TextRank 提取摘要

自動摘要,就是從文章中自動抽取關鍵句。人類對關鍵句的理解通常是能夠概括文章中心的句子,而機器只能模擬人類的理解,即擬定一個權重的評分標准,給每個句子打分,之后給出排名靠前的幾個句子。

基於 TextRank 的自動文摘屬於自動摘錄,通過選取文本中重要度較高的句子形成文摘。

依然使用 TextRank 公式: 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM