HanLP筆記 - 配置分詞器

本文轉載自查看原文 2018-06-21 23:14 822 nlp

所有分詞器都是 Segment 的子類， Segment 提供以下配置接口：

// 設為索引模式 public Segment enableIndexMode(boolean enable) //開啟詞性標注 public Segment enablePartOfSpeechTagging(boolean enable) //開啟人名識別 public Segment enableNameRecognize(boolean enable) //開啟地名識別 public Segment enablePlaceRecognize(boolean enable) //開啟機構名識別 public Segment enableOrganizationRecognize(boolean enable) //是否啟用用戶詞典 public Segment enableCustomDictionary(boolean enable) //是否啟用音譯人名識別 public Segment enableTranslatedNameRecognize(boolean enable) //是否啟用日本人名識別 public Segment enableJapaneseNameRecognize(boolean enable) //是否啟用偏移量計算（開啟后Term.offset才會被計算） public Segment enableOffset(boolean enable) //是否啟用所有的命名實體識別 public Segment enableAllNamedEntityRecognize(boolean enable)

用戶可以使用鏈式語法對Segment執行創建和配置操作，一氣呵成:

 
            Segment shortestSegment = new ViterbiSegment().enableCustomDictionary(false).enablePlaceRecognize(true).enableOrganizationRecognize(true);  
           

對於工具類中的分詞器，也可以使用暴露出來的SEGMENT成員對其進行配置:

 
            String text = "澤田依子是上外日本文化經濟學院的外教"; System.out.println(StandardTokenizer.segment(text)); StandardTokenizer.SEGMENT.enableAllNamedEntityRecognize(true); System.out.println(StandardTokenizer.segment(text));  
           

線程安全性

除了配置方法不作保證外，任何分詞器都是線程安全的。

詳細文檔：http://hanlp.linrunsoft.com/doc/_build/html/segment.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Es學習第五課，分詞器介紹和中文分詞器配置 IK分詞器 ElasticSearch 分詞器 elasticsearch分詞器 Elasticsearch初步使用(安裝、Head配置、分詞器配置) ES7學習筆記（七）IK中文分詞器 solr8.0 ik中文分詞器的簡單配置（二） ES中文分詞器安裝以及自定義配置 EleasticSearch：1.7.6 Docker安裝、使用IK分詞器配置 solr配置中文分詞器mmseg4j