分詞————jieba分詞(Python)


要使用分詞器來看下各個分詞器對文本數據的分詞效果,找了很多資料發現有推薦最多的開源分詞工具就是結巴(jieba)分詞和清華NLP分詞庫(thulac),下面簡單說下中文分詞器的jieba分詞,只寫了切詞和用戶自定義詞典兩種方法,其他的功能后面再補充:
 
一、分詞
         
1 import jieba
2 str = u'李建華為人民'
3 word = jieba.cut(str, HMM=True) # 產生一個生成器對象
4 word_list = [val for val in word]
5 for each in word_list:
6     print each
在上述代碼中第1行導入jieba庫; 第3行對詞進行切分,生成一個生成器對象(HMM的參數就是是否使用隱馬爾可夫的方式分詞, HMM后面單獨寫一個再深入理解一下)。
簡單程序運行結果如下:
 
二 、用戶自定義詞典
         在jieba文件目錄下,添加用戶自定義詞典 (例如:‘userdict.txt’) 將自定義的詞、詞頻次和詞性(詞性可加可不加)加入(空格間隔)。
          
       在程序中執行下列代碼即可
jieba.load_userdict('userdict.txt')   # 加載上述用戶字典
       例句:
              他來到了網易杭研大廈    
        加載用戶自定義字典之前,粉刺結果如下圖:
            
       加載用戶詞典‘userdict.txt’后分詞結果如下圖:
        
            


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM