R語言自然語言處理：關鍵詞提取與文本摘要（TextRank）

本文轉載自查看原文 2021-06-30 15:37 154 文本挖掘/ 關鍵字提取/ 數據挖掘和算法

作者：黃天元，復旦大學博士在讀，目前研究涉及文本挖掘、社交網絡分析和機器學習等。希望與大家分享學習經驗，推廣並加深R語言在業界的應用。

郵箱：huang.tian-yuan@qq.com

關於提取關鍵詞的方法，除了TF-IDF算法，比較有名的還有TextRank算法。它是基於PageRank衍生出來的自然語言處理算法，是一種基於圖論的排序算法，以文本的相似度作為邊的權重，迭代計算每個文本的TextRank值，最后把排名高的文本抽取出來，作為這段文本的關鍵詞或者文本摘要。之所以提到關鍵詞和文本摘要，兩者其實宗旨是一樣的，就是自動化提取文本的重要表征文字。

如果分詞是以詞組作為切分，那么得到的是關鍵詞。以詞作為切分的時候，構成詞與詞之間是否連接的，是詞之間是否相鄰。相鄰關系可以分為n元，不過在中文中，我認為2元關系已經非常足夠了（比如一句話是：“我/有/一只/小/毛驢/我/從來/也/不/騎”，那么設置二元會讓“一只”和“毛驢”發生關聯，這就足夠了）。如果是以句子切分的，那么得到的稱之為文本摘要（其實就是關鍵的句子，俗稱關鍵句）。如果要得到文本的關鍵句子，還是要對每句話進行分詞，得到每句話的基本詞要素。根據句子之間是否包含相同的詞語，我們可以得到句子的相似度矩陣，然后再根據相似度矩陣來得到最關鍵的句子（也就是與其他句子關聯性最強的那個句子）。當句子比較多的時候，這個計算量是非常大的。下面，我要用R語言的textrank包來實現關鍵詞的提取和文本摘要。

准備工作

安裝必備的包。

1library(pacman)
2p_load(tidyverse,tidytext,textrank,rio,jiebaR)

然后，導入數據。數據可以在我的github中獲得（github.com/hope-data-sc）。文件名稱為hire_text.rda。

1import("./hire_text.rda") -> hire_text
2hire_text

這里面包含了互聯網公司的一些招聘信息，一共有4102條記錄，只有一列，列名稱為hire_text，包含了企業對崗位要求的描述。

關鍵詞提取

因為要做關鍵詞和關鍵句的提取，因此我們要進行分詞和分句。分詞還是利用jiebaR，老套路。如果沒有了解的話，請看專欄之前的文章（R語言自然語言處理系列）。不過這次，我們希望能夠在得到詞頻的同時，得到每個詞的詞性，然后只把名詞提取出來。分詞代碼如下：

1hire_text %>% 
2  mutate(id = 1:n()) -> hire_txt  #給文檔編號
3
4worker(type = "tag") -> wk   #構造一個分詞器，需要得到詞性
5
6hire_txt %>% 
7  mutate(words = map(hire_text,tagging,jieba = wk)) %>%   #給文檔進行逐個分詞
8  mutate(word_tag = map(words,enframe,name = "tag",value = "word")) %>%               
9  select(id,word_tag) -> hire_words

然后，我們分組進行關鍵詞提取。

 1#構造提取關鍵詞的函數
 2
 3extract_keywords = function(dt){
 4  textrank_keywords(dt$word,relevant = str_detect(dt$tag,"^n"),ngram_max = 2) %>% 
 5    .$keywords
 6}
 7
 8hire_words %>% 
 9  mutate(textrank.key = map(word_tag,extract_keywords)) %>% 
10  select(-word_tag) -> tr_keyword

現在我們的數據框中，包含了每個文檔的關鍵詞。每個關鍵詞列表中，包含freq和ngram兩列，freq代表詞頻，ngram代表多少個n元，2元就是“上海市-閔行區”這種形式，1元就是“上海市”、“閔行區”這種形式。現在，我要從中挑選每篇文章最重要的3個關鍵詞。挑選規則是：詞頻必須大於1，在此基礎上，n元越高越好。

 1tr_keyword %>% 
 2  unnest() %>% 
 3  group_by(id) %>% 
 4  filter(freq > 1) %>% 
 5  top_n(3,ngram) %>% 
 6  ungroup() -> top3_keywords
 7
 8top3_keywords
 9## # A tibble: 3,496 x 4
10##       id keyword       ngram  freq
11##    <int> <chr>         <int> <int>
12##  1     1 上海市-長寧區     2     2
13##  2     1 長寧區            1     2
14##  3     1 上海市-靜安區     2     2
15##  4     4 客戶              1     4
16##  5     5 招商銀行          1     2
17##  6     6 事業部            1     3
18##  7     7 房地產            1     2
19##  8     9 技術              1     3
20##  9    10 電商              1     2
21## 10    10 協調              1     2
22## # ... with 3,486 more rows

仔細觀察發現，有的文檔就沒有出現過，因為他們分詞之后，每個詞的詞頻都是1。現在讓我們統計一下最火的十大高頻詞。

 1top3_keywords %>% 
 2  count(keyword) %>% 
 3  arrange(desc(n)) %>% 
 4  slice(1:10)
 5## # A tibble: 10 x 2
 6##    keyword     n
 7##    <chr>   <int>
 8##  1 客戶      298
 9##  2 公司      173
10##  3 產品      110
11##  4 能力       97
12##  5 項目       89
13##  6 技術       51
14##  7 市場       48
15##  8 系統       48
16##  9 廣告       41
17## 10 企業       41

這些詞分別是：客戶、公司、產品、能力、項目、技術、市場、系統、廣告、企業。

文本摘要

文本摘要其實就是從文檔中提出我們認為最關鍵的句子。我們會用textrank包的textrank_sentences函數，這要求我們有一個分句的數據框，還有一個分詞的數據框（不過這次需要去重復，也就是說分詞表中每個文檔不能有重復的詞）。非常重要的一點是，這次分詞必須以句子為單位進行划分。我們明確一下任務：對每一個招聘文檔，我們要挑選出這個文檔中最關鍵的一句話。要解決這個大問題，需要先解決一個小問題。就是對任意的一個長字符串，我們要能夠切分成多個句子，然后按照句子分組，對其進行分詞。然后我們會得到一個句子表格和單詞表格。其中，我們切分句子的標准是，切開任意長度的空格，這在正則表達式中表示為“[:space:]+”。

1get_sentence_table = function(string){
2  string %>% 
3    str_split(pattern = "[:space:]+") %>% 
4    unlist %>% 
5    as_tibble() %>% 
6    transmute(sentence_id = 1:n(),sentence = value)
7}

上面這個函數，對任意的一個字符串，能夠返回一個含有兩列的數據框，第一列是句子的編號sentence_id，另一列是句子內容sentence。我們姑且把這個數據框稱之為sentence_table。下面我們要構造另一個函數，對於任意的sentence_table，我們需要返回一個分詞表格，包含兩列，第一列是所屬句子的編號，第二列是分詞的單詞內容。

 1wk = worker()  #在外部構造一個jieba分詞器
 2
 3get_word_table = function(string){
 4  string %>% 
 5    str_split(pattern = "[:space:]+") %>% 
 6    unlist %>% 
 7    as_tibble() %>% 
 8    transmute(sentence_id = 1:n(),sentence = value) %>% 
 9    mutate(words = map(sentence,segment,jieba = wk)) %>% 
10    select(-sentence) %>% 
11    unnest()
12}

如果分詞器要在內部構造，每次運行函數都要構造一次，會非常消耗時間。目前，對於任意一個字符串，我們有辦法得到它的關鍵句了。我們舉個例子：

1hire_text[[1]][1] -> test_text
2test_text %>% get_sentence_table -> st
3st %>% get_word_table -> wt
4## Warning in stri_split_regex(string, pattern, n = n, simplify = simplify, :
5## argument is not an atomic vector; coercing

有了這st和wt這兩個表格，現在我們要愉快地提取關鍵句子。

1textrank_sentences(data = st,terminology = wt) %>% 
2  summary(n = 1)  #n代表要top多少的關鍵句子
3## [1] "1279弄6號國峰科技大廈"

我們給這個取最重要關鍵句子也編寫一個函數。

1get_textrank_sentence = function(st,wt){
2  textrank_sentences(data = st,terminology = wt) %>% 
3  summary(n = 1)
4}

因為數據量比較大，我們只求第10-20條記錄進行求解。不過，如果句子只有一句話，那么是會報錯的。因此我們要首先去除一個句子的記錄。

 1hire_txt %>% 
 2  slice(10:20) %>% 
 3  mutate(st = map(hire_text,get_sentence_table)) %>% 
 4  mutate(wt = map(hire_text,get_word_table)) %>% 
 5  mutate(sentence.no = unlist(map(st,nrow))) %>% 
 6  select(-hire_text) %>% 
 7  filter(sentence.no != 1) %>% 
 8  mutate(key_sentence = unlist(map2(st,wt,get_textrank_sentence))) %>% 
 9  select(id,sentence.no,key_sentence) -> hire_abstract
10
11hire_abstract
12## # A tibble: 10 x 3
13##       id sentence.no key_sentence                                         
14##    <int>       <int> <chr>                                                
15##  1    10           9 開拓電商行業潛在客戶                                 
16##  2    11           5 EHS                                                  
17##  3    12           9 負責招聘渠道的維護和更新；                           
18##  4    13           6 榮獲中國房地產經紀百強企業排名前六強；               
19##  5    14           7 2、邏輯思維、分析能力強，工作謹慎、認真，具有良好的書面及語言表達能力；~
20##  6    15           5 2、能獨立完成欄目包裝、影視片頭、廣告片、宣傳片的制作，包括創意圖設計、動畫制作、特效、剪輯合成等工作；~
21##  7    16           7 3、公司為員工提供帶薪上崗培訓和豐富的在職培訓，有廣闊的職業發展與晉升空間；~
22##  8    17           7 您與該職位的匹配度?                                  
23##  9    18          13 接觸並建立與行業內重點企業的良好關系，及時了解需求狀態;~
24## 10    20           7 具有財務、金融、稅務等領域專業知識；具有較強分析判斷和解決問題的能力；~

如果對所有記錄的摘要感興趣，去掉slice(10:20) %>%這一行即可。等待時間可能會較長。

總結

實踐證明，TextRank算法是一個比較耗時的算法，因為它依賴於圖計算，需要構成相似度矩陣。當數據量變大的時候，運行時間會呈“幾何級”增長。但是對於中小型的文本來說，這個方法還是非常不錯的。但是中小型的文本，還需要摘要么？盡管如此，這還是一個非常直觀的算法，如果TF-IDF在一些時候不好用的話，這是一個非常好的候補選項。

參考資料

textrank包基本教程

http://blog.itpub.net/31562039/viewspace-2286669/

手把手 | 基於TextRank算法的文本摘要（附Python代碼）

http://blog.itpub.net/31562039/viewspace-2286669/

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 R語言自然語言處理：關鍵詞提取（TF-IDF） python自然語言處理——提取關鍵詞，標簽 9. HanLP《自然語言處理入門》筆記--9.關鍵詞、關鍵句和短語提取 NLP自然語言處理 jieba中文分詞,關鍵詞提取,詞性標注,並行分詞,起止位置,文本挖掘,NLP WordEmbedding的概念和實現自然語言處理——詞的表示自然語言處理（六）詞向量知識圖譜系列---自然語言處理---分詞詞向量與文本分類自然語言處理----詞袋模型自然語言處理——詞向量詞嵌入 Python自然語言處理---信息提取