使用jieba分詞時，自定義詞典（jieba.load_userdict('userdict.txt')）不生效的一種可能原因

本文轉載自查看原文 2020-03-03 16:29 7165

今天使用jieba分詞時，發現 jieba.load_userdict('userdict.txt') 並沒有將自定義的詞給保留下載，比如原文本中包含了 “不開心”，我想把“不開心”保留下來【ps：在常用的那幾種模式中，都會分成不 / 開心，所以想到將“不開心”，自定義到詞典中來達到目的】

然而我發現，當我使用了 jieba.load_userdict('userdict.txt') 時，並沒有成功地把“不開心”保留，更甚者，連 “不 / 開心” 都不見了。。。。

后面發現，我在分詞時因為需要保留詞性，所以使用的是使用的是 jieba.posseg.lcut(sentence)，但是，我添加自定義詞典時只是單純地在文件中寫入了 “不開心”，省略了詞頻和詞性，后來順便補上詞頻和詞性后，問題就得到解決了。

關於詞頻和詞性如何填寫，這里有篇文章提到：jieba 默認有349046個詞,然后每行的含義是 詞詞頻詞性,如果你新加的詞匯不知道該怎么設置的話，可以寫成 詞 3 n

（至於根本原因是啥，我也沒有深究進去）

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 jieba用自定義詞典分詞不准確 python調用jieba(結巴)分詞加入自定義詞典和去停用詞功能結巴使用自定義詞典關於hanlp自定義詞典的使用哈工大分詞器中自定義詞典的使用在使用Hanlp配置自定義詞典時遇到的問題 Hanlp添加自定義詞典 java 結巴分詞使用自定義詞庫 python使用結巴分詞(jieba)創建自己的詞典/詞庫 jieba 分詞使用入門