- 環境
Anaconda3 Python 3.6, Window 64bit
- 目的
利用 jieba 進行分詞,關鍵詞提取
- 代碼
# -*- coding: utf-8 -*- import jieba import jieba.posseg as jbpos import jieba.analyse as jbal ''' 詞性說明: a:形容詞 d:副詞 i:成語 m:數詞 n:名詞 nr:人名 ns:地名 nt:機構團體 nz:其他專有名詞 t:時間 v:動詞 x:標點符號 f:方位詞 un:未知 ''' string1 = "國內掀起了大數據、雲計算的熱潮。" # 全模式 w1 = jieba.cut(string1, cut_all=True) # for i in w1: # print(i) # 精准模式,默認是精准模式 w2 = jieba.cut(string1) # for i in w2: # print(i) # print("<----------->") # 搜索引擎模式 w3 = jieba.cut_for_search(string1) # for i in w3: # print(i) # print("<----------->") # 詞性標注 w4 = jbpos.cut(string1) # for i in w4: # print(i.word + "--" + i.flag) # print("<----------->") # 詞典加載 # jieba.load_userdict("dict2.txt") string2 = "國內掀起了大數據、雲計算的熱潮。仙鶴門地區。" #word 詞語,flag 詞性 w5 = jbpos.cut(string2) for i in w5: print(i.word + "--" + i.flag) print("<----------->\n") # 更改詞頻-單個詞 jieba.suggest_freq("大數據", True) jieba.suggest_freq("雲計算", True) w6 = jbpos.cut(string2) for i in w6: print(i.word + "--" + i.flag) print("<----------->\n") # 動態修改詞典 刪除詞 del_word jieba.add_word("仙鶴門") w7 = jbpos.cut(string2) for i in w7: print(i.word + "--" + i.flag) print("<----------->\n") # 提取關鍵詞 第二個參數控制提取參數個數 w8 = jbal.extract_tags(string2, 5) print(w8)
- 結果展示

