關於jieba用戶自定義字典的一點使用說明


jieba的用戶自定義分詞字典能夠有效提升任務性能,必不可少。

在此之前,一直使用"user_dict.txt"為“txt”后綴的加載方式:

jieba.load_userdict("./user_dict.txt")

但是當前為了保存加密需求,必須要對txt數據做序列化操作,起到一定的加密作用。通過源碼觀察,jieba使用的是“wb”讀取二進制流,所以解救能夠直接讀取以pickle封裝的“user_dict.pkl”數據

jieba.load_userdict("./user_dict.pkl")

經過本人實驗發現,以上結果都能夠達到同樣的分詞效果


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM