31.IK分詞器配置文件講解以及自定義詞庫


主要知識點:

  • 知道IK默認的配置文件信息
  • 自定義詞庫

   

一、ik配置文件

   

ik配置文件地址:es/plugins/ik/config目錄

   

IKAnalyzer.cfg.xml:用來配置自定義詞庫

main.dicik原生內置的中文詞庫,總共有27萬多條,只要是這些單詞,都會被分在一起

quantifier.dic:放了一些單位相關的詞

suffix.dic:放了一些后綴

surname.dic:中國的姓氏

stopword.dic:英文停用詞

   

ik原生最重要的兩個配置文件

   

main.dic:包含了原生的中文詞語,會按照這個里面的詞語去分詞

stopword.dic:包含了英文的停用詞

   

停用詞(stopword)是指如 a the 等這樣的對於搜索無意義的單詞,停用詞,會在分詞的時候,直接被排除掉,也就是說不會建立在倒排索引中

   

二、自定義詞庫

   

1、自己建立詞庫:每年都會涌現一些特殊的流行詞,如網紅,藍瘦香菇,喊麥,鬼畜,一般不會在ik的原生詞典里,這時就需要自己補充自己的最新的詞語,到ik的詞庫里面去。分下面兩步

  • IKAnalyzer.cfg.xml進行配制文件地址,一般不會更改,就按IKAnalyzer.cfg.xml里面的要求建立文件夾和文件就行
  • 在對應的文件中加入自已的詞語,一般在custom/mydict.dic里進行增加主要詞
  • 然后需要重啟es,才能生效

   

2、自己建立停用詞庫:比如了,的,啥,么,我們可能並不想去建立索引

步驟和上面一樣,只是在custom/ext_stopword.dic中進行增加。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM