[Python]利用jieba.analyse進行 關鍵詞 提取


1、簡單應用

代碼如下:

 1 #!/usr/bin/env python
 2 # -*- coding: utf-8 -*-
 3 # @File  : jieba.analyse.py
 4 # @Author: 趙路倉
 5 # @Date  : 2020/3/14
 6 # @Desc  : 提取關鍵字
 7 # @Contact : 398333404@qq.com 
 8 
 9 import jieba.analyse
10 
11 
12 text='安全、防止水合物和段塞生成的重要措施之一。因此,針對未來還上油田開發技術,我們預先開展了水深1500米管道式油氣水分離器的概念設計。通過該研究,提出適合海洋環境的體積小、重量輕、分離效率高、便於操作和維護的新型油氣水三相分離器,使其成為海洋深水油氣田開'
13 Key=jieba.analyse.extract_tags(text,topK=3)
14 print(Key)

 

 2、含參使用

 keywords = jieba.analyse.extract_tags(content, topK=5, withWeight=True, allowPOS=()) 
  • 第一個參數:待提取關鍵詞的文本
  • 第二個參數:返回關鍵詞的數量,重要性從高到低排序
  • 第三個參數:是否同時返回每個關鍵詞的權重
  • 第四個參數:詞性過濾,為空表示不過濾,若提供則僅返回符合詞性要求的關鍵詞

代碼如下:

 1 #!/usr/bin/env python
 2 # -*- coding: utf-8 -*-
 3 # @File  : jieba.analyse.py
 4 # @Author: 趙路倉
 5 # @Date  : 2020/3/14
 6 # @Desc  : 提取關鍵字
 7 # @Contact : 398333404@qq.com 
 8 
 9 import jieba.analyse
10 
11 
12 # 字符串前面加u表示使用unicode編碼
13 content = u'安全、防止水合物和段塞生成的重要措施之一。因此,針對未來還上油田開發技術,我們預先開展了水深1500米管道式油氣水分離器的概念設計。通過該研究,提出適合海洋環境的體積小、重量輕、分離效率高、便於操作和維護的新型油氣水三相分離器,使其成為海洋深水油氣田開'
14 
15 keywords = jieba.analyse.extract_tags(content, topK=5, withWeight=True, allowPOS=())
16 # 訪問提取結果
17 for item in keywords:
18     # 分別為關鍵詞和相應的權重
19     print(item[0], item[1])

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM