分詞————jieba分詞（Python）

本文轉載自查看原文 2019-06-09 14:14 857 NLP/ Python

要使用分詞器來看下各個分詞器對文本數據的分詞效果，找了很多資料發現有推薦最多的開源分詞工具就是結巴（jieba）分詞和清華NLP分詞庫（thulac），下面簡單說下中文分詞器的jieba分詞，只寫了切詞和用戶自定義詞典兩種方法，其他的功能后面再補充：

一、分詞

1 import jieba
2 str = u'李建華為人民'
3 word = jieba.cut(str, HMM=True) # 產生一個生成器對象
4 word_list = [val for val in word]
5 for each in word_list:
6     print each

在上述代碼中第1行導入jieba庫；第3行對詞進行切分，生成一個生成器對象（HMM的參數就是是否使用隱馬爾可夫的方式分詞， HMM后面單獨寫一個再深入理解一下）。

簡單程序運行結果如下：

二、用戶自定義詞典

在jieba文件目錄下，添加用戶自定義詞典 (例如：‘userdict.txt’) 將自定義的詞、詞頻次和詞性（詞性可加可不加）加入（空格間隔）。

在程序中執行下列代碼即可

jieba.load_userdict('userdict.txt')   # 加載上述用戶字典

例句：

他來到了網易杭研大廈

加載用戶自定義字典之前，粉刺結果如下圖：

加載用戶詞典‘userdict.txt’后分詞結果如下圖：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 jieba 分詞庫（python） python jieba分詞詞性 python 分詞庫jieba python結巴(jieba)分詞 Python中文分詞庫——jieba python-jieba分詞庫 python -jieba 安裝+分詞+定位 python 結巴分詞(jieba)詳解 python jieba分詞小說與詞頻統計 jieba GitHUb 結巴分詞 jieba分詞