一、字段類型概述
二、字符串類型ElasticSearch對字符串擁有兩種完全不同的搜索方式. 你可以按照整個文本進行匹配, 即關鍵詞搜索(keyword search), 也可以按單個字符匹配, 即全文搜索(full-text search).
對ElasticSearch稍有了解的人都知道, 前者的字符串被稱為not-analyzed字符, 而后者被稱作analyzed字符串。
Text:
會分詞,然后進行索引
支持模糊、精確查詢
不支持聚合
keyword:
不進行分詞,直接索引
支持模糊、精確查詢
支持聚合
text用於全文搜索的, 而keyword用於關鍵詞搜索.
(1)string
string類型在ElasticSearch 舊版本中使用較多,從ElasticSearch 5.x開始不再支持string,由text和keyword類型替代。
(2)text
當一個字段是要被全文搜索的,比如Email內容、產品描述,應該使用text類型。設置text類型以后,字段內容會被分析,在生成倒排索引以前,字符串會被分析器分成一個一個詞項。text類型的字段不用於排序,很少用於聚合。
PUT my_index { "mappings": { "_doc": { "properties": { "name": { "type": "text" } } } } } }
如果不指定類型,ElasticSearch字符串將默認被同時映射成text和keyword類型,會自動創建下面的動態映射(dynamic mappings):
{ "foo": { "type": "text", "fields": { "keyword": { "type": "keyword", "ignore_above": 256 } } } }
ignore_above忽略長度超過256字符串。
這就是造成部分字段還會自動生成一個與之對應的“.keyword”字段的原因。
一個字符串字段可以映射為text字段用於全文本搜索,也可以映射為keyword字段用於排序或聚合,這時候需要用到fields設置多字段。如果業務關系中,需要該字段支持兩種類型的查詢,可以設置為如下形式:
PUT my_index { "mappings": { "_doc": { "properties": { "name": { "type": "text", "fields": { "raw": { "type": "keyword" } } } } } } }
name.raw字段是name字段的keyword版本。
(3)keyword
keyword類型適用於索引結構化的字段,比如email地址、主機名、狀態碼和標簽。如果字段需要進行過濾(比如查找已發布博客中status屬性為published的文章)、排序、聚合。keyword類型的字段只能通過精確值搜索到。
{ "foo": { "type": "text", "fields": { "keyword": { "type": "keyword", "ignore_above": 256 } } } }
三、整數類型
在滿足需求的情況下,盡可能選擇范圍小的數據類型。比如,某個字段的取值最大值不會超過100,那么選擇byte類型即可。迄今為止吉尼斯記錄的人類的年齡的最大值為134歲,對於年齡字段,short足矣字段的長度越短,索引和搜索的效率越高。
四、浮點類型
對於float、half_float和scaled_float,-0.0和+0.0是不同的值,使用term查詢查找-0.0不會匹配+0.0,同樣range查詢中上邊界是-0.0不會匹配+0.0,下邊界是+0.0不會匹配-0.0。
其中scaled_float,比如價格只需要精確到分,price為57.34的字段縮放因子為100,存起來就是5734。
優先考慮使用帶縮放因子的scaled_float浮點類型。
邏輯類型(布爾類型)可以接受true/false/”true”/”false”值
五、date類型
日期類型表示格式可以是以下幾種:
1.日期格式的字符串,比如 “2018-01-13” 或 “2018-01-13 12:10:30” 2.long類型的毫秒數( milliseconds-since-the-epoch,epoch就是指UNIX誕生的UTC時間1970年1月1日0時0分0秒) 3.integer的秒數(seconds-since-the-epoch)
ElasticSearch 內部會將日期數據轉換為UTC,並存儲為milliseconds-since-the-epoch的long型整數。
例子:日期格式數據
"properties": { "postdate":{ "type":"date", "format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis" } }
六、boolean類型
"properties": { "empty":{ "type":"boolean" } }
七、binary類型
八、array類型
在ElasticSearch中,沒有專門的數組(Array)數據類型,但是,在默認情況下,任意一個字段都可以包含0或多個值,這意味着每個字段默認都是數組類型,只不過,數組類型的各個元素值的數據類型必須相同。在ElasticSearch中,數組是開箱即用的(out of box),不需要進行任何配置,就可以直接使用。
在同一個數組中,數組元素的數據類型是相同的,ElasticSearch不支持元素為多個數據類型:[ 10, “some string” ],常用的數組類型是:
字符數組: [ “one”, “two” ] 整數數組: productid:[ 1, 2 ] 對象(文檔)數組: “user”:[ { “name”: “Mary”, “age”: 12 }, { “name”: “John”, “age”: 10 }], ElasticSearch內部把對象數組展開為 {“user.name”: [“Mary”, “John”], “user.age”: [12,10]}
九、ip類型
ip類型的字段用於存儲IPv4或者IPv6的地址
PUT my-index { "mappings": { "properties": { "ip_addr": { "type": "ip" } } } } PUT my-index/_doc/1 { "ip_addr": "192.168.1.1" }
IPv4 的 IP 地址含有4個 bytes,而每個 byte 含有8個 digits。/16 即表示前面的 16 位的 digits,也即 192.168。我們可以這么說任何一個 IP 地址位於 192.168.0.0 至 192.168.255.255 都在這個范圍內。
GET my-index/_search { "query": { "term": { "ip_addr": "192.168.0.0/16" } } }