ElasticSearch 字段類型介紹


一、字段類型概述

 二、字符串類型ElasticSearch對字符串擁有兩種完全不同的搜索方式. 你可以按照整個文本進行匹配, 即關鍵詞搜索(keyword search), 也可以按單個字符匹配, 即全文搜索(full-text search).

對ElasticSearch稍有了解的人都知道, 前者的字符串被稱為not-analyzed字符, 而后者被稱作analyzed字符串。
Text:
會分詞,然后進行索引
支持模糊、精確查詢
不支持聚合

keyword:
不進行分詞,直接索引
支持模糊、精確查詢
支持聚合

text用於全文搜索的, 而keyword用於關鍵詞搜索.

(1)string

string類型在ElasticSearch 舊版本中使用較多,從ElasticSearch 5.x開始不再支持string,由text和keyword類型替代。

(2)text

當一個字段是要被全文搜索的,比如Email內容、產品描述,應該使用text類型。設置text類型以后,字段內容會被分析,在生成倒排索引以前,字符串會被分析器分成一個一個詞項。text類型的字段不用於排序,很少用於聚合。
PUT my_index
{
  "mappings": {
    "_doc": {
      "properties": {
        "name": {
          "type": "text"
          }
        }
      }
    }
  }
}

如果不指定類型,ElasticSearch字符串將默認被同時映射成text和keyword類型,會自動創建下面的動態映射(dynamic mappings):

{
    "foo": {
        "type": "text",
        "fields": {
            "keyword": {
                "type": "keyword",
                "ignore_above": 256
            }
        }
    }
 
}

ignore_above忽略長度超過256字符串。

這就是造成部分字段還會自動生成一個與之對應的“.keyword”字段的原因。

一個字符串字段可以映射為text字段用於全文本搜索,也可以映射為keyword字段用於排序或聚合,這時候需要用到fields設置多字段。如果業務關系中,需要該字段支持兩種類型的查詢,可以設置為如下形式:

PUT my_index
{
  "mappings": {
    "_doc": {
      "properties": {
        "name": {
          "type": "text",
          "fields": {
            "raw": { 
              "type":  "keyword"
            }
          }
        }
      }
    }
  }
}

name.raw字段是name字段的keyword版本。

(3)keyword

keyword類型適用於索引結構化的字段,比如email地址、主機名、狀態碼和標簽。如果字段需要進行過濾(比如查找已發布博客中status屬性為published的文章)、排序、聚合。keyword類型的字段只能通過精確值搜索到。
{
    "foo": {
        "type": "text",
        "fields": {
            "keyword": {
                "type": "keyword",
                "ignore_above": 256
            }
        }
    }
}

三、整數類型

在滿足需求的情況下,盡可能選擇范圍小的數據類型。比如,某個字段的取值最大值不會超過100,那么選擇byte類型即可。迄今為止吉尼斯記錄的人類的年齡的最大值為134歲,對於年齡字段,short足矣字段的長度越短,索引和搜索的效率越高。

四、浮點類型

對於float、half_float和scaled_float,-0.0和+0.0是不同的值,使用term查詢查找-0.0不會匹配+0.0,同樣range查詢中上邊界是-0.0不會匹配+0.0,下邊界是+0.0不會匹配-0.0。
其中scaled_float,比如價格只需要精確到分,price為57.34的字段縮放因子為100,存起來就是5734。
優先考慮使用帶縮放因子的scaled_float浮點類型。

五、date類型

日期類型表示格式可以是以下幾種:

1.日期格式的字符串,比如 “2018-01-13” 或 “2018-01-13 12:10:30”
2.long類型的毫秒數( milliseconds-since-the-epoch,epoch就是指UNIX誕生的UTC時間1970年1月1日0時0分0秒)
3.integer的秒數(seconds-since-the-epoch)

ElasticSearch 內部會將日期數據轉換為UTC,並存儲為milliseconds-since-the-epoch的long型整數。

例子:日期格式數據

      "properties": {
        "postdate":{
          "type":"date",
          "format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis"
        }
      }

六、boolean類型

邏輯類型(布爾類型)可以接受true/false/”true”/”false”值
 "properties": {
        "empty":{
                "type":"boolean"
            }
      }

七、binary類型

二進制字段是指用base64來表示索引中存儲的二進制數據,可用來存儲二進制形式的數據,例如圖像。默認情況下,該類型的字段只存儲不索引。二進制類型只支持index_name屬性。

八、array類型

在ElasticSearch中,沒有專門的數組(Array)數據類型,但是,在默認情況下,任意一個字段都可以包含0或多個值,這意味着每個字段默認都是數組類型,只不過,數組類型的各個元素值的數據類型必須相同。在ElasticSearch中,數組是開箱即用的(out of box),不需要進行任何配置,就可以直接使用。
在同一個數組中,數組元素的數據類型是相同的,ElasticSearch不支持元素為多個數據類型:[ 10, “some string” ],常用的數組類型是:
字符數組: [ “one”, “two” ]
整數數組: productid:[ 1, 2 ]
對象(文檔)數組:
“user”:[ { “name”: “Mary”, “age”: 12 }, { “name”: “John”, “age”: 10 }],
ElasticSearch內部把對象數組展開為
{“user.name”: [“Mary”, “John”], “user.age”: [12,10]}

九、ip類型

ip類型的字段用於存儲IPv4或者IPv6的地址

PUT my-index
{
  "mappings": {
    "properties": {
      "ip_addr": {
        "type": "ip"
      }
    }
  }
}

PUT my-index/_doc/1
{
  "ip_addr": "192.168.1.1"
}

IPv4 的 IP 地址含有4個 bytes,而每個 byte 含有8個 digits。/16 即表示前面的 16 位的 digits,也即 192.168。我們可以這么說任何一個 IP 地址位於 192.168.0.0 至 192.168.255.255 都在這個范圍內。

GET my-index/_search
{
  "query": {
    "term": {
      "ip_addr": "192.168.0.0/16"
    }
  }
}

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM