jieba的用戶自定義分詞字典能夠有效提升任務性能,必不可少。
在此之前,一直使用"user_dict.txt"為“txt”后綴的加載方式:
jieba.load_userdict("./user_dict.txt")
但是當前為了保存加密需求,必須要對txt數據做序列化操作,起到一定的加密作用。通過源碼觀察,jieba使用的是“wb”讀取二進制流,所以解救能夠直接讀取以pickle封裝的“user_dict.pkl”數據
jieba.load_userdict("./user_dict.pkl")
經過本人實驗發現,以上結果都能夠達到同樣的分詞效果
