jieba用自定義詞典分詞不准確

本文轉載自查看原文 2019-07-24 18:14 1723

最近在用jieba庫分詞，自己做了一個語料庫，但是用 jieba.load_userdict("all_yuliaoku1.txt")加載自己的語料庫出現了分詞不准確的問題，某些詞語一直分不出來。

后來根據

個人猜測是和這個jieba.cache有關，之前看過資料，jieba分詞是根據dict.txt建立模型，然后加載模型，進行分詞。個人猜測是和這個cache文件有關，

於是刪除路徑的的cache文件，把自己的詞典放在原來jieba的庫的dict.txt的位置，然后刪除原來的dict.txt。運行文件，然后分詞就准確了。

有些專業詞，之前是分不出來的，現在是可以分出來的。困擾了好久的問題，終於解決了。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Hanlp添加自定義詞典 HanLP自定義詞典注意事項為Mac的自帶的詞典添加自定義詞庫 elasticsearch ik分詞器自定義詞庫在使用Hanlp配置自定義詞典時遇到的問題 Elasticsearch之中文分詞器插件es-ik的自定義詞庫 jieba分詞單例模式及linux權限不夠情況下tmp_dir自定義 IKAnalyzer 添加擴展詞庫和自定義詞 Lucene 自定義分詞器利用IK分詞器，自定義分詞規則