jieba用自定义词典分词不准确


最近在用jieba库分词,自己做了一个语料库,但是用 jieba.load_userdict("all_yuliaoku1.txt")加载自己的语料库出现了分词不准确的问题,某些词语一直分不出来。

后来根据

 

个人猜测是和这个jieba.cache有关,之前看过资料,jieba分词是根据dict.txt建立模型,然后加载模型,进行分词。个人猜测是和这个cache文件有关,

于是删除路径的的cache文件,把自己的词典放在原来jieba的库的dict.txt的位置,然后删除原来的dict.txt。运行文件,然后分词就准确了。

有些专业词,之前是分不出来的,现在是可以分出来的。困扰了好久的问题,终于解决了。

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM