ES之分析器(Analyzer)及拼音分词器

本文转载自查看原文 2021-12-27 14:59 793 Elasticsearch

把输入的文本块按照一定的策略进行分解，并建立倒排索引。在Lucene的架构中，这个过程由分析器(analyzer)完成。

主要组成

character filter:接收原字符流，通过添加、删除或者替换操作改变原字符流。例如：去除文本中的html标签，或者将罗马数字转换成阿拉伯数字等。一个字符过滤器可以有零个或者多个。
tokenizer：简单的说就是将一整段文本拆分成一个个的词。例如拆分英文，通过空格能将句子拆分成一个个的词，但是对于中文来说，无法使用这种方式来实现。在一个分词器中,有且只有一个tokenizeer
token filters：将切分的单词添加、删除或者改变。例如将所有英文单词小写，或者将英文中的停词a删除等。在token filters中，不允许将token(分出的词)的position或者offset改变。同时，在一个分词器中，可以有零个或者多个token filters

默认ES使用standard analyzer，如果默认的分词器无法符合你的要求，可以自己配置。

下载拼音分词插件，要和安装的es版本保持一致，解压改名乘pinyin放入到 es的plugins下，重启es；

在创建index mapping时可以指定 "analyzer": "pinyin_analyzer"

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 es之分词器和分析器 ik中文分词器及拼音分词器试用 ik与拼音分词器，拓展热词/停止词库 ElasticSearch（三）：通分词器（Analyzer）进行分词（Analysis） elasticsearch中文分词器ik-analyzer安装 Solr 5.0.0配置中文分词器IK Analyzer Elasticsearch的索引模块（正排索引、倒排索引、索引分析模块Analyzer、索引和搜索、停用词、中文分词器） ES-IK分词器 Elasticsearch（ES）分词器的那些事儿 Elasticsearch之分词器的工作流程