主要知識點:
- 知道IK默認的配置文件信息
- 自定義詞庫
一、ik配置文件
ik配置文件地址:es/plugins/ik/config目錄
IKAnalyzer.cfg.xml:用來配置自定義詞庫
main.dic:ik原生內置的中文詞庫,總共有27萬多條,只要是這些單詞,都會被分在一起
quantifier.dic:放了一些單位相關的詞
suffix.dic:放了一些后綴
surname.dic:中國的姓氏
stopword.dic:英文停用詞
ik原生最重要的兩個配置文件
main.dic:包含了原生的中文詞語,會按照這個里面的詞語去分詞
stopword.dic:包含了英文的停用詞
停用詞(stopword)是指如 a the 等這樣的對於搜索無意義的單詞,停用詞,會在分詞的時候,直接被排除掉,也就是說不會建立在倒排索引中
二、自定義詞庫
1、自己建立詞庫:每年都會涌現一些特殊的流行詞,如網紅,藍瘦香菇,喊麥,鬼畜,一般不會在ik的原生詞典里,這時就需要自己補充自己的最新的詞語,到ik的詞庫里面去。分下面兩步
- 在IKAnalyzer.cfg.xml進行配制文件地址,一般不會更改,就按IKAnalyzer.cfg.xml里面的要求建立文件夾和文件就行
- 在對應的文件中加入自已的詞語,一般在custom/mydict.dic里進行增加主要詞
- 然后需要重啟es,才能生效
2、自己建立停用詞庫:比如了,的,啥,么,我們可能並不想去建立索引
步驟和上面一樣,只是在custom/ext_stopword.dic中進行增加。