首先要求自定義詞典為utf-8編碼格式,可用editplus等工具轉換。
詞典要求在配置文件中進行設置:
#本配置文件中的路徑的根目錄,根目錄+其他路徑=完整路徑(支持相對路徑,請參考:https://github.com/hankcs/HanLP/pull/254)
#Windows用戶請注意,路徑分隔符統一使用/
root=D:/學習/data-for-1.3.3/
#自定義詞典路徑,用;隔開多個自定義詞典,空格開頭表示在同一個目錄,使用“文件名 詞性”形式則表示這個詞典的詞性默認是該詞性。優先級遞減。
#另外data/dictionary/custom/CustomDictionary.txt是個高質量的詞庫,請不要刪除。所有詞典統一使用UTF-8編碼。
#增加農業詞典
CustomDictionaryPath=data/dictionary/custom/agriculture.txt; CustomDictionary.txt; 現代漢語補充詞庫.txt;