今天使用jieba分詞時,發現 jieba.load_userdict('userdict.txt') 並沒有將自定義的詞給保留下載,比如原文本中包含了 “不開心”,我想把“不開心”保留下來【ps:在常用的那幾種模式中,都會分成 不 / 開心,所以想到將“不開心”,自定義到詞典中來達到目的】
然而我發現,當我使用了 jieba.load_userdict('userdict.txt') 時,並沒有成功地把“不開心”保留,更甚者,連 “不 / 開心” 都不見了。。。。
后面發現,我在分詞時因為需要保留詞性,所以使用的是使用的是 jieba.posseg.lcut(sentence),但是,我添加自定義詞典時只是單純地在文件中寫入了 “不開心”,省略了詞頻和詞性,后來順便補上詞頻和詞性后,問題就得到解決了。
關於詞頻和詞性如何填寫,這里有篇文章提到:jieba 默認有349046個詞,然后每行的含義是 詞 詞頻 詞性,如果你新加的詞匯不知道該怎么設置的話,可以寫成 詞 3 n
(至於根本原因是啥,我也沒有深究進去)
