作者:黃天元,復旦大學博士在讀,目前研究涉及文本挖掘、社交網絡分析和機器學習等。希望與大家分享學習經驗,推廣並加深R語言在業界的應用。
郵箱:huang.tian-yuan@qq.com
關於提取關鍵詞的方法,除了TF-IDF算法,比較有名的還有TextRank算法。它是基於PageRank衍生出來的自然語言處理算法,是一種基於圖論的排序算法,以文本的相似度作為邊的權重,迭代計算每個文本的TextRank值,最后把排名高的文本抽取出來,作為這段文本的關鍵詞或者文本摘要。之所以提到關鍵詞和文本摘要,兩者其實宗旨是一樣的,就是自動化提取文本的重要表征文字。
如果分詞是以詞組作為切分,那么得到的是關鍵詞。以詞作為切分的時候,構成詞與詞之間是否連接的,是詞之間是否相鄰。相鄰關系可以分為n元,不過在中文中,我認為2元關系已經非常足夠了(比如一句話是:“我/有/一只/小/毛驢/我/從來/也/不/騎”,那么設置二元會讓“一只”和“毛驢”發生關聯,這就足夠了)。如果是以句子切分的,那么得到的稱之為文本摘要(其實就是關鍵的句子,俗稱關鍵句)。如果要得到文本的關鍵句子,還是要對每句話進行分詞,得到每句話的基本詞要素。根據句子之間是否包含相同的詞語,我們可以得到句子的相似度矩陣,然后再根據相似度矩陣來得到最關鍵的句子(也就是與其他句子關聯性最強的那個句子)。當句子比較多的時候,這個計算量是非常大的。 下面,我要用R語言的textrank包來實現關鍵詞的提取和文本摘要。
准備工作
安裝必備的包。
1library(pacman)
2p_load(tidyverse,tidytext,textrank,rio,jiebaR)
然后,導入數據。數據可以在我的github中獲得(github.com/hope-data-sc)。文件名稱為hire_text.rda。
1import("./hire_text.rda") -> hire_text
2hire_text
這里面包含了互聯網公司的一些招聘信息,一共有4102條記錄,只有一列,列名稱為hire_text,包含了企業對崗位要求的描述。
關鍵詞提取
因為要做關鍵詞和關鍵句的提取,因此我們要進行分詞和分句。分詞還是利用jiebaR,老套路。如果沒有了解的話,請看專欄之前的文章(R語言自然語言處理系列)。不過這次,我們希望能夠在得到詞頻的同時,得到每個詞的詞性,然后只把名詞提取出來。 分詞代碼如下:
1hire_text %>%
2 mutate(id = 1:n()) -> hire_txt #給文檔編號
3
4worker(type = "tag") -> wk #構造一個分詞器,需要得到詞性
5
6hire_txt %>%
7 mutate(words = map(hire_text,tagging,jieba = wk)) %>% #給文檔進行逐個分詞
8 mutate(word_tag = map(words,enframe,name = "tag",value = "word")) %>%
9 select(id,word_tag) -> hire_words
然后,我們分組進行關鍵詞提取。
1#構造提取關鍵詞的函數
2
3extract_keywords = function(dt){
4 textrank_keywords(dt$word,relevant = str_detect(dt$tag,"^n"),ngram_max = 2) %>%
5 .$keywords
6}
7
8hire_words %>%
9 mutate(textrank.key = map(word_tag,extract_keywords)) %>%
10 select(-word_tag) -> tr_keyword
現在我們的數據框中,包含了每個文檔的關鍵詞。每個關鍵詞列表中,包含freq和ngram兩列,freq代表詞頻,ngram代表多少個n元,2元就是“上海市-閔行區”這種形式,1元就是“上海市”、“閔行區”這種形式。 現在,我要從中挑選每篇文章最重要的3個關鍵詞。挑選規則是:詞頻必須大於1,在此基礎上,n元越高越好。
1tr_keyword %>%
2 unnest() %>%
3 group_by(id) %>%
4 filter(freq > 1) %>%
5 top_n(3,ngram) %>%
6 ungroup() -> top3_keywords
7
8top3_keywords
9## # A tibble: 3,496 x 4
10## id keyword ngram freq
11## <int> <chr> <int> <int>
12## 1 1 上海市-長寧區 2 2
13## 2 1 長寧區 1 2
14## 3 1 上海市-靜安區 2 2
15## 4 4 客戶 1 4
16## 5 5 招商銀行 1 2
17## 6 6 事業部 1 3
18## 7 7 房地產 1 2
19## 8 9 技術 1 3
20## 9 10 電商 1 2
21## 10 10 協調 1 2
22## # ... with 3,486 more rows
仔細觀察發現,有的文檔就沒有出現過,因為他們分詞之后,每個詞的詞頻都是1。現在讓我們統計一下最火的十大高頻詞。
1top3_keywords %>%
2 count(keyword) %>%
3 arrange(desc(n)) %>%
4 slice(1:10)
5## # A tibble: 10 x 2
6## keyword n
7## <chr> <int>
8## 1 客戶 298
9## 2 公司 173
10## 3 產品 110
11## 4 能力 97
12## 5 項目 89
13## 6 技術 51
14## 7 市場 48
15## 8 系統 48
16## 9 廣告 41
17## 10 企業 41
這些詞分別是:客戶、公司、產品、能力、項目、技術、市場、系統、廣告、企業。
文本摘要
文本摘要其實就是從文檔中提出我們認為最關鍵的句子。我們會用textrank包的textrank_sentences函數,這要求我們有一個分句的數據框,還有一個分詞的數據框(不過這次需要去重復,也就是說分詞表中每個文檔不能有重復的詞)。非常重要的一點是,這次分詞必須以句子為單位進行划分。 我們明確一下任務:對每一個招聘文檔,我們要挑選出這個文檔中最關鍵的一句話。要解決這個大問題,需要先解決一個小問題。就是對任意的一個長字符串,我們要能夠切分成多個句子,然后按照句子分組,對其進行分詞。然后我們會得到一個句子表格和單詞表格。 其中,我們切分句子的標准是,切開任意長度的空格,這在正則表達式中表示為“[:space:]+”。
1get_sentence_table = function(string){
2 string %>%
3 str_split(pattern = "[:space:]+") %>%
4 unlist %>%
5 as_tibble() %>%
6 transmute(sentence_id = 1:n(),sentence = value)
7}
上面這個函數,對任意的一個字符串,能夠返回一個含有兩列的數據框,第一列是句子的編號sentence_id,另一列是句子內容sentence。我們姑且把這個數據框稱之為sentence_table。 下面我們要構造另一個函數,對於任意的sentence_table,我們需要返回一個分詞表格,包含兩列,第一列是所屬句子的編號,第二列是分詞的單詞內容。
1wk = worker() #在外部構造一個jieba分詞器
2
3get_word_table = function(string){
4 string %>%
5 str_split(pattern = "[:space:]+") %>%
6 unlist %>%
7 as_tibble() %>%
8 transmute(sentence_id = 1:n(),sentence = value) %>%
9 mutate(words = map(sentence,segment,jieba = wk)) %>%
10 select(-sentence) %>%
11 unnest()
12}
如果分詞器要在內部構造,每次運行函數都要構造一次,會非常消耗時間。 目前,對於任意一個字符串,我們有辦法得到它的關鍵句了。我們舉個例子:
1hire_text[[1]][1] -> test_text
2test_text %>% get_sentence_table -> st
3st %>% get_word_table -> wt
4## Warning in stri_split_regex(string, pattern, n = n, simplify = simplify, :
5## argument is not an atomic vector; coercing
有了這st和wt這兩個表格,現在我們要愉快地提取關鍵句子。
1textrank_sentences(data = st,terminology = wt) %>%
2 summary(n = 1) #n代表要top多少的關鍵句子
3## [1] "1279弄6號國峰科技大廈"
我們給這個取最重要關鍵句子也編寫一個函數。
1get_textrank_sentence = function(st,wt){
2 textrank_sentences(data = st,terminology = wt) %>%
3 summary(n = 1)
4}
因為數據量比較大,我們只求第10-20條記錄進行求解。不過,如果句子只有一句話,那么是會報錯的。因此我們要首先去除一個句子的記錄。
1hire_txt %>%
2 slice(10:20) %>%
3 mutate(st = map(hire_text,get_sentence_table)) %>%
4 mutate(wt = map(hire_text,get_word_table)) %>%
5 mutate(sentence.no = unlist(map(st,nrow))) %>%
6 select(-hire_text) %>%
7 filter(sentence.no != 1) %>%
8 mutate(key_sentence = unlist(map2(st,wt,get_textrank_sentence))) %>%
9 select(id,sentence.no,key_sentence) -> hire_abstract
10
11hire_abstract
12## # A tibble: 10 x 3
13## id sentence.no key_sentence
14## <int> <int> <chr>
15## 1 10 9 開拓電商行業潛在客戶
16## 2 11 5 EHS
17## 3 12 9 負責招聘渠道的維護和更新;
18## 4 13 6 榮獲中國房地產經紀百強企業排名前六強;
19## 5 14 7 2、邏輯思維、分析能力強,工作謹慎、認真,具有良好的書面及語言表達能力;~
20## 6 15 5 2、能獨立完成欄目包裝、影視片頭、廣告片、宣傳片的制作,包括創意圖設計、動畫制作、特效、剪輯合成等工作;~
21## 7 16 7 3、公司為員工提供帶薪上崗培訓和豐富的在職培訓,有廣闊的職業發展與晉升空間;~
22## 8 17 7 您與該職位的匹配度?
23## 9 18 13 接觸並建立與行業內重點企業的良好關系,及時了解需求狀態;~
24## 10 20 7 具有財務、金融、稅務等領域專業知識;具有較強分析判斷和解決問題的能力;~
如果對所有記錄的摘要感興趣,去掉slice(10:20) %>%
這一行即可。等待時間可能會較長。
總結
實踐證明,TextRank算法是一個比較耗時的算法,因為它依賴於圖計算,需要構成相似度矩陣。當數據量變大的時候,運行時間會呈“幾何級”增長。但是對於中小型的文本來說,這個方法還是非常不錯的。但是中小型的文本,還需要摘要么?盡管如此,這還是一個非常直觀的算法,如果TF-IDF在一些時候不好用的話,這是一個非常好的候補選項。
參考資料
textrank包基本教程
http://blog.itpub.net/31562039/viewspace-2286669/
手把手 | 基於TextRank算法的文本摘要(附Python代碼)
http://blog.itpub.net/31562039/viewspace-2286669/