關於hanlp自定義詞典的使用


首先要求自定義詞典為utf-8編碼格式,可用editplus等工具轉換。

詞典要求在配置文件中進行設置:

#本配置文件中的路徑的根目錄,根目錄+其他路徑=完整路徑(支持相對路徑,請參考:https://github.com/hankcs/HanLP/pull/254)
#Windows用戶請注意,路徑分隔符統一使用/
root=D:/學習/data-for-1.3.3/




#自定義詞典路徑,用;隔開多個自定義詞典,空格開頭表示在同一個目錄,使用“文件名 詞性”形式則表示這個詞典的詞性默認是該詞性。優先級遞減。
#另外data/dictionary/custom/CustomDictionary.txt是個高質量的詞庫,請不要刪除。所有詞典統一使用UTF-8編碼。
#增加農業詞典
CustomDictionaryPath=data/dictionary/custom/agriculture.txt; CustomDictionary.txt; 現代漢語補充詞庫.txt;


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM