Elasticsearch(ES)分詞器的那些事兒


1. 概述

分詞器是Elasticsearch中很重要的一個組件,用來將一段文本分析成一個一個的詞,Elasticsearch再根據這些詞去做倒排索引。

今天我們就來聊聊分詞器的相關知識。

2. 內置分詞器

2.1 概述

Elasticsearch 中內置了一些分詞器,這些分詞器只能對英文進行分詞處理,無法將中文的詞識別出來。

2.2 內置分詞器介紹

standard:標准分詞器,是Elasticsearch中默認的分詞器,可以拆分英文單詞,大寫字母統一轉換成小寫。

simple:按非字母的字符分詞,例如:數字、標點符號、特殊字符等,會去掉非字母的詞,大寫字母統一轉換成小寫。

whitespace:簡單按照空格進行分詞,相當於按照空格split了一下,大寫字母不會轉換成小寫。

stop:會去掉無意義的詞,例如:the、a、an 等,大寫字母統一轉換成小寫。

keyword:不拆分,整個文本當作一個詞。

2.3 查看分詞效果通用接口

GET  http://192.168.1.11:9200/_analyze

參數:

{
    "analyzer": "standard",  
    "text": "I am a man."
}

響應:

{
    "tokens": [
        {
            "token": "i",
            "start_offset": 0,
            "end_offset": 1,
            "type": "<ALPHANUM>",
            "position": 0
        },
        {
            "token": "am",
            "start_offset": 2,
            "end_offset": 4,
            "type": "<ALPHANUM>",
            "position": 1
        },
        {
            "token": "a",
            "start_offset": 5,
            "end_offset": 6,
            "type": "<ALPHANUM>",
            "position": 2
        },
        {
            "token": "man",
            "start_offset": 7,
            "end_offset": 10,
            "type": "<ALPHANUM>",
            "position": 3
        }
    ]
}

https://www.cnblogs.com/w84422/p/15310917.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM