ik下載
- 打開
Github
官網,搜索elasticsearch-analysis-ik
,單擊medcl/elasticsearch-analysis-ik
。或者直接點擊
- 在
readme.md
文件中,下拉選擇預編譯版本。
- 由於
ik
與elasticsearch
存在兼容問題。所以在下載ik
時要選擇和elasticsearch
版本一致的,也就是選擇v6.5.4
版本,單擊elasticsearch-analysis-ik-6.5.4.zip
包,自動進入下載到本地。
- 本地下載成功后,是個
zip
包。
安裝
- 首先打開
C:\Program Files\elasticseach-6.5.4\plugins
目錄,新建一個名為ik
的子目錄,並將elasticsearch-analysis-ik-6.5.4.zip
包解壓到該ik
目錄內也就是C:\Program Files\elasticseach-6.5.4\plugins\ik
目錄。
測試
- 首先將
elascticsearch
和kibana
服務重啟。 - 然后地址欄輸入
http://localhost:5601
,在Dev Tools
中的Console
界面的左側輸入命令,再點擊綠色的執行按鈕執行。
GET _analyze
{
"analyzer": "ik_max_word",
"text": "上海自來水來自海上"
}
右側就顯示出結果了如下所示:
{
"tokens" : [
{
"token" : "上海",
"start_offset" : 0,
"end_offset" : 2,
"type" : "CN_WORD",
"position" : 0
},
{
"token" : "自來水",
"start_offset" : 2,
"end_offset" : 5,
"type" : "CN_WORD",
"position" : 1
},
{
"token" : "自來",
"start_offset" : 2,
"end_offset" : 4,
"type" : "CN_WORD",
"position" : 2
},
{
"token" : "水",
"start_offset" : 4,
"end_offset" : 5,
"type" : "CN_CHAR",
"position" : 3
},
{
"token" : "來自",
"start_offset" : 5,
"end_offset" : 7,
"type" : "CN_WORD",
"position" : 4
},
{
"token" : "海上",
"start_offset" : 7,
"end_offset" : 9,
"type" : "CN_WORD",
"position" : 5
}
]
}
OK,安裝完畢,非常的簡單。
ik目錄簡介
我們簡要的介紹一下ik分詞配置文件:
- IKAnalyzer.cfg.xml,用來配置自定義的詞庫
- main.dic,ik原生內置的中文詞庫,大約有27萬多條,只要是這些單詞,都會被分在一起。
- surname.dic,中國的姓氏。
- suffix.dic,特殊(后綴)名詞,例如
鄉、江、所、省
等等。 - preposition.dic,中文介詞,例如
不、也、了、仍
等等。 - stopword.dic,英文停用詞庫,例如
a、an、and、the
等。 - quantifier.dic,單位名詞,如
厘米、件、倍、像素
等。
see also:[IK Analysis for Elasticsearch](https://github.com/medcl/elasticsearch-analysis-ik) | [elasticsearch build-in Analyzers](https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-analyzers.html) 歡迎斧正,that's all