使用jieba分詞時,自定義詞典(jieba.load_userdict('userdict.txt'))不生效的一種可能原因


今天使用jieba分詞時,發現 jieba.load_userdict('userdict.txt') 並沒有將自定義的詞給保留下載,比如原文本中包含了 “不開心”,我想把“不開心”保留下來【ps:在常用的那幾種模式中,都會分成 不  /  開心,所以想到將“不開心”,自定義到詞典中來達到目的】

然而我發現,當我使用了 jieba.load_userdict('userdict.txt') 時,並沒有成功地把“不開心”保留,更甚者,連 “不 /  開心” 都不見了。。。。

 

后面發現,我在分詞時因為需要保留詞性,所以使用的是使用的是 jieba.posseg.lcut(sentence),但是,我添加自定義詞典時只是單純地在文件中寫入了 “不開心”,省略了詞頻和詞性,后來順便補上詞頻和詞性后,問題就得到解決了。

關於詞頻和詞性如何填寫,這里有篇文章提到jieba 默認有349046個詞,然后每行的含義是 詞 詞頻 詞性,如果你新加的詞匯不知道該怎么設置的話,可以寫成 詞 3 n

(至於根本原因是啥,我也沒有深究進去)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM