最近在用jieba庫分詞,自己做了一個語料庫,但是用 jieba.load_userdict("all_yuliaoku1.txt")加載自己的語料庫出現了分詞不准確的問題,某些詞語一直分不出來。
后來根據
個人猜測是和這個jieba.cache有關,之前看過資料,jieba分詞是根據dict.txt建立模型,然后加載模型,進行分詞。個人猜測是和這個cache文件有關,
於是刪除路徑的的cache文件,把自己的詞典放在原來jieba的庫的dict.txt的位置,然后刪除原來的dict.txt。運行文件,然后分詞就准確了。
有些專業詞,之前是分不出來的,現在是可以分出來的。困擾了好久的問題,終於解決了。