要使用分詞器來看下各個分詞器對文本數據的分詞效果,找了很多資料發現有推薦最多的開源分詞工具就是結巴(jieba)分詞和清華NLP分詞庫(thulac),下面簡單說下中文分詞器的jieba分詞,只寫了切詞和用戶自定義詞典兩種方法,其他的功能后面再補充:
一、分詞
1 import jieba 2 str = u'李建華為人民' 3 word = jieba.cut(str, HMM=True) # 產生一個生成器對象 4 word_list = [val for val in word] 5 for each in word_list: 6 print each
在上述代碼中第1行導入jieba庫; 第3行對詞進行切分,生成一個生成器對象(HMM的參數就是是否使用隱馬爾可夫的方式分詞, HMM后面單獨寫一個再深入理解一下)。
簡單程序運行結果如下:
二 、用戶自定義詞典
在jieba文件目錄下,添加用戶自定義詞典 (例如:‘userdict.txt’) 將自定義的詞、詞頻次和詞性(詞性可加可不加)加入(空格間隔)。

在程序中執行下列代碼即可
jieba.load_userdict('userdict.txt') # 加載上述用戶字典
例句:
他來到了網易杭研大廈
加載用戶自定義字典之前,粉刺結果如下圖:

加載用戶詞典‘userdict.txt’后分詞結果如下圖:
