Python jieba 分詞


  • 環境

Anaconda3 Python 3.6, Window 64bit

  • 目的

利用 jieba 進行分詞,關鍵詞提取

  • 代碼
# -*- coding: utf-8 -*-

import jieba
import jieba.posseg as jbpos
import jieba.analyse as jbal

'''
詞性說明:
a:形容詞
d:副詞
i:成語
m:數詞
n:名詞
nr:人名
ns:地名
nt:機構團體
nz:其他專有名詞
t:時間
v:動詞
x:標點符號
f:方位詞
un:未知
'''

string1 = "國內掀起了大數據、雲計算的熱潮。"

# 全模式
w1 = jieba.cut(string1, cut_all=True)
# for i in w1:
#     print(i)

# 精准模式,默認是精准模式
w2 = jieba.cut(string1)
# for i in w2:
#     print(i)
# print("<----------->")

# 搜索引擎模式
w3 = jieba.cut_for_search(string1)
# for i in w3:
#     print(i)
# print("<----------->")

# 詞性標注
w4 = jbpos.cut(string1)
# for i in w4:
#     print(i.word + "--" + i.flag)
# print("<----------->")

# 詞典加載
# jieba.load_userdict("dict2.txt")
string2 = "國內掀起了大數據、雲計算的熱潮。仙鶴門地區。"
#word 詞語,flag 詞性
w5 = jbpos.cut(string2)
for i in w5:
    print(i.word + "--" + i.flag)
print("<----------->\n")

# 更改詞頻-單個詞
jieba.suggest_freq("大數據", True)
jieba.suggest_freq("雲計算", True)
w6 = jbpos.cut(string2)
for i in w6:
    print(i.word + "--" + i.flag)
print("<----------->\n")

# 動態修改詞典 刪除詞 del_word
jieba.add_word("仙鶴門")
w7 = jbpos.cut(string2)
for i in w7:
    print(i.word + "--" + i.flag)
print("<----------->\n")

# 提取關鍵詞 第二個參數控制提取參數個數
w8 = jbal.extract_tags(string2, 5)
print(w8)
View Code

 

  • 結果展示

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM