TextRank算法是一種文本排序算法,算法由谷歌的網頁重要性排序算法PageRank算法改進而來。TextRank算法能夠從一個給定的文本中提取出該文本的關鍵詞、關鍵詞組,並使用抽取式的自動文摘方法提取出該文本的關鍵句。二者的區別在於:PageRank算法根據網頁之間的鏈接關系構造網絡,而TextRank算法根據詞之間的共現關系構造網絡;PageRank算法構造的網絡中的邊是有向無權邊,而TextRank算法構造的網絡中的邊是無向有權邊。TextRank算法的核心公式如下,其中Wji用於表示兩個節點之間的邊連接具有不同的重要程度
\(WS(V_{i})=(1-d)+d*\sum_{v_{j}\in In(V_{i})}\frac{w_{ji}}{\sum_{v_{k}\in Out(V_{j})}w_{jk}}WS(V_{j})\)
- 文獻:TextRank: Bringing Order into Texts (2004)
- 作者:Rada Mihalcea and Paul Tarau
- 地址: https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf
本文將介紹TextRank算法的基本原理,並給出Python中TextRank算法的中文文本實現模塊textrank4zh的使用實例。