jieba用自定義詞典分詞不准確


最近在用jieba庫分詞,自己做了一個語料庫,但是用 jieba.load_userdict("all_yuliaoku1.txt")加載自己的語料庫出現了分詞不准確的問題,某些詞語一直分不出來。

后來根據

 

個人猜測是和這個jieba.cache有關,之前看過資料,jieba分詞是根據dict.txt建立模型,然后加載模型,進行分詞。個人猜測是和這個cache文件有關,

於是刪除路徑的的cache文件,把自己的詞典放在原來jieba的庫的dict.txt的位置,然后刪除原來的dict.txt。運行文件,然后分詞就准確了。

有些專業詞,之前是分不出來的,現在是可以分出來的。困擾了好久的問題,終於解決了。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM