@
一、需求说明
今天有一个场景,基于企业标签的数量进行排序。我的实现逻辑是按照企业的标签字符串长度进行排序,在es中这也算一种聚合查询的场景。
| id | vipSign | licenses |
|---|---|---|
| 1 | 1 | A |
| 2 | 0 | A,C |
| 3 | 1 | A,C |
优先按照vip标签排序,然后再按照licenses的长度排序,期望结果应为:3、1、2。
已知,licenses属性的mapping设置为:
{
"type": "text",
"fields": {
"keyword": {
"type": "keyword",
"ignore_above": 256
}
}
}
二、解决方案
破浪前提:区分text和keyword之间的关系
困难缠身的原因一般是对基础概念或特性的理解不足。
首先text属性的字段在es中存储时,会被自动分词存储;text属性的字段是支持分词,但不支持聚合的。我们可以在kibana的index patterns中可以查看索引属性的特性。

语法总结
type为text时,我们可以通过doc['field_name'].length或者doc['field_name'].size()获取该属性对应数组的长度;type为keyword字符串情形下,则使用doc['field_name.keyword'].value.length()获取属性值的长度,但是需要注意,如果doc['field_name.keyword'].value的值存在为null的情况,因此需要使用doc['field_name.keyword'].size()优先判空。
最终的脚本为:
POST /lpm-route-v2/_search
{
"from": 0,
"size": 10,
"query": {
"terms": {
"id": [
"66108",
"72221"
]
}
},
"sort": [
{
"store.company.vipSign": {
"order": "desc"
}
},
{
"_script": {
"script": {
"source": "doc['store.company.licenses.keyword'].size()>0 ?doc['store.company.licenses.keyword'].value.length():0",
"lang": "painless"
},
"type": "number",
"order": "desc"
}
}
]
}
三、踩坑历史
踩坑1:错误使用聚合属性length
错误写法
POST /lpm-route-v2/_search
{
"from": 0,
"size": 10,
"query": {"match_all": {}},
"sort": [
{
"store.company.vipSign": {
"order": "desc"
}
},
{
"_script": {
"script": {
"source": "doc['store.company.licenses'].length",
"lang": "painless"
},
"type": "number",
"order": "desc"
}
}
]
}
提示信息如下,即默认不支持聚合和排序:
"reason" : "Text fields are not optimised for operations that require per-document field data like aggregations and sorting, so these operations are disabled by default. Please use a keyword field instead. Alternatively, set fielddata=true on [store.company.licenses] in order to load field data by uninverting the inverted index. Note that this can use significant memory."
脚本表达式正确写法为:
doc['store.company.licenses.keyword'].length。错误写法中表达的含义为统计元素的个数,可以理解为数组元素的个数。
命中结果的排序均为:
{
"_index" : "lpm-company-v1",
"_type" : "_doc",
"_id" : "5229",
"_score" : null,
"_source" : {
...
},
"sort" : [
1,
1.0
]
},
也就是说,第二个字段doc['store.company.licenses'].length的值为1,同:doc['store.company.licenses'].size(),返回结果为数组的长度,那么如何返回字符串的长度呢?
踩坑2:keyword值为空异常
"caused_by" : {
"type" : "illegal_state_exception",
"reason" : "A document doesn't have a value for a field! Use doc[<field>].size()==0 to check if a document is missing a field!"
}
原因:字符串字段中存储有null值。
解决办法:doc['licenses.keyword'].size() !=0 ?doc['licenses.keyword'].value.length() :0
四、参考资料
- 解决 SpringBoot Elasticsearch 7.x 聚合查询遇到的问题
- Elasticsearch 按照字段的长度过滤 (该字段必须为keyword 类型)附带api
- ElasticSearch通过字段值的长度过滤 7.x不适用
- elasticsearch中如何依据字符串长度过滤
- ElasticSearch按字符串长度排序
感谢您的赏读~
您还可以关注我的微信公众号回复“es脑图”,获取我的Elasticsearch学习思维导图哦。👌,就这么“定”了!
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ih68eiNw-1622215244567)(https://gitee.com/cowboy2014/cloud2020-config/raw/master//pictures/%E6%89%AB%E7%A0%81_%E6%90%9C%E7%B4%A2%E8%81%94%E5%90%88%E4%BC%A0%E6%92%AD%E6%A0%B7%E5%BC%8F-%E6%A0%87%E5%87%86%E8%89%B2%E7%89%88.png)]](/image/aHR0cHM6Ly9pbWctYmxvZy5jc2RuaW1nLmNuLzIwMjEwNTI4MjMyMTAwOTgzLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3dhdGVybWFyayx0eXBlX1ptRnVaM3BvWlc1bmFHVnBkR2ssc2hhZG93XzEwLHRleHRfYUhSMGNITTZMeTlpYkc5bkxtTnpaRzR1Ym1WMEwydzNNVFEwTVRjM05ETT0sc2l6ZV8xNixjb2xvcl9GRkZGRkYsdF83MA==.png)
