ElasticSearch中分詞器組件配置詳解

本文轉載自查看原文 2015-11-23 20:10 4555 elasticsearch/ solr/ lucene

首先要明確一點，ElasticSearch是基於Lucene的，它的很多基礎性組件，都是由Apache Lucene提供的，而es則提供了更高層次的封裝以及分布式方面的增強與擴展。

所以要想熟練的掌握的關於es中分詞方面的知識，一定得先從Lucene抓起，否則只會是丈二和尚摸不着頭腦，當然我們大多數開發者只關注於怎么用，偏底層的東東，也沒有太多時間去深究，這也有情可原，遇到問題再去探究，也何嘗不是一種辦法，如果有時間，還是建議看看Lucene基礎的知識。

在ElasticSearch或Solr中，都提供了基於配置的可插拔式的分詞插件，管理方式，這樣以來就組合配置方式就非常靈活，在es中，一個analysis集合
可以包含多個analyzer，而一個analyzer則由一個單個的tokenizer，零個或多個的tokenfilter組成，而一個tokenizer又可以包含零個或多個的charFilter。總體的執行流程如下圖：

在es里面的一個模板配置如下：

Java代碼

index :
analysis ://一個analysis可以包含多個analyzer，tokenizer，filter，char_filter配置
analyzer :// 一個analyzer下面可以包含一個tokenizer，多個filter和char_filter， position_increment_gap是距離查詢時，最大允許查詢的距離，默認是100
myAnalyzer1 :
type : custom
tokenizer : myTokenizer1
filter : [myTokenFilter1, myTokenFilter2]
char_filter : [my_html]
position_increment_gap: 256
myAnalyzer2 :
type : custom
tokenizer : myTokenizer1
filter : [myTokenFilter1, myTokenFilter2]
char_filter : [my_html]
position_increment_gap: 256
tokenizer :
myTokenizer1 :
type : standard
max_token_length : 900
myTokenizer2 :
type : keyword
max_token_length : 900
filter :
myTokenFilter1 :
type : stop
stopwords : [stop1, stop2, stop3, stop4]
myTokenFilter2 :
type : length
min : 0
max : 2000
char_filter :
my_html :
type : html_strip
escaped_tags : [xxx, yyy]
read_ahead : 1024

一個比較完整的分詞器配置案例，就如上面的例子，幾乎涵蓋了所有可能用到的組件，而我們在實際應用中，要做的就是，選擇組合我們需要的組件，定制成一個分詞器，然后就可以使用了，
上面的這段配置，我們需要配置在elasticsearch.yml文件中，全局有效，然后我們就可以在靜態mapping或動態mapping中引用和使用它了。
參考鏈接：
https://www.elastic.co/guide/en/elasticsearch/reference/2.1/analysis-custom-analyzer.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 elasticsearch中文分詞器（ik）配置 docker 配置 elasticsearch、ik分詞器 elasticsearch配置ik分詞器 ElasticSearch 分詞器 ElasticSearch 分詞器 ElasticSearch 分詞器 elasticsearch分詞器 Elasticsearch 分詞器 elasticsearch之ik分詞器 elasticsearch - ik分詞器