Elasticsearch：如何基于Script实现按照text属性值的字符串长度排序

本文转载自查看原文 2021-12-24 21:32 843 Elasticsearch

一、需求说明
二、解决方案
- 破浪前提：区分text和keyword之间的关系
- 语法总结
三、踩坑历史
- 踩坑1：错误使用聚合属性length
- 踩坑2：keyword值为空异常
四、参考资料

一、需求说明

今天有一个场景，基于企业标签的数量进行排序。我的实现逻辑是按照企业的标签字符串长度进行排序，在es中这也算一种聚合查询的场景。

id	vipSign	licenses
1	1	A
2	0	A,C
3	1	A,C

优先按照vip标签排序，然后再按照licenses的长度排序，期望结果应为：3、1、2。

已知，licenses属性的mapping设置为：

{
  "type": "text",
  "fields": {
    "keyword": {
      "type": "keyword",
      "ignore_above": 256
    }
  }
}

二、解决方案

破浪前提：区分text和keyword之间的关系

困难缠身的原因一般是对基础概念或特性的理解不足。

首先text属性的字段在es中存储时，会被自动分词存储；text属性的字段是支持分词，但不支持聚合的。我们可以在kibana的index patterns中可以查看索引属性的特性。

语法总结

type为text时，我们可以通过doc['field_name'].length或者doc['field_name'].size()获取该属性对应数组的长度；
type为keyword字符串情形下,则使用doc['field_name.keyword'].value.length()获取属性值的长度，但是需要注意，如果doc['field_name.keyword'].value的值存在为null的情况，因此需要使用doc['field_name.keyword'].size()优先判空。

最终的脚本为：

POST /lpm-route-v2/_search
{
    "from": 0,
    "size": 10,
    "query": {
      "terms": {
        "id": [
          "66108",
          "72221"
        ]
      }
    }, 
    "sort": [
        {
            "store.company.vipSign": {
                "order": "desc"
            }
        },
        {
            "_script": {
                "script": {
                    "source": "doc['store.company.licenses.keyword'].size()>0 ?doc['store.company.licenses.keyword'].value.length():0",
                    "lang": "painless"
                },
                "type": "number",
                "order": "desc"
            }
        }
    ]
}

三、踩坑历史

踩坑1：错误使用聚合属性length

错误写法

POST /lpm-route-v2/_search
{
    "from": 0,
    "size": 10,
    "query": {"match_all": {}}, 
    "sort": [
        {
            "store.company.vipSign": {
                "order": "desc"
            }
        },
        {
            "_script": {
                "script": {
                    "source": "doc['store.company.licenses'].length",
                    "lang": "painless"
                },
                "type": "number",
                "order": "desc"
            }
        }
    ]
}

提示信息如下，即默认不支持聚合和排序：

"reason" : "Text fields are not optimised for operations that require per-document field data like aggregations and sorting, so these operations are disabled by default. Please use a keyword field instead. Alternatively, set fielddata=true on [store.company.licenses] in order to load field data by uninverting the inverted index. Note that this can use significant memory."

脚本表达式正确写法为：
doc['store.company.licenses.keyword'].length。错误写法中表达的含义为统计元素的个数，可以理解为数组元素的个数。

命中结果的排序均为：

{
        "_index" : "lpm-company-v1",
        "_type" : "_doc",
        "_id" : "5229",
        "_score" : null,
        "_source" : {
          ...
        },
        "sort" : [
          1,
          1.0
        ]
      },

也就是说，第二个字段doc['store.company.licenses'].length的值为1，同：doc['store.company.licenses'].size()，返回结果为数组的长度，那么如何返回字符串的长度呢？

踩坑2：keyword值为空异常

"caused_by" : {
    "type" : "illegal_state_exception",
    "reason" : "A document doesn't have a value for a field! Use doc[<field>].size()==0 to check if a document is missing a field!"
  }

原因：字符串字段中存储有null值。
解决办法：doc['licenses.keyword'].size() !=0 ?doc['licenses.keyword'].value.length() :0

四、参考资料

感谢您的赏读~
您还可以关注我的微信公众号回复“es脑图”，获取我的Elasticsearch学习思维导图哦。👌，就这么“定”了！

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ih68eiNw-1622215244567)(https://gitee.com/cowboy2014/cloud2020-config/raw/master//pictures/%E6%89%AB%E7%A0%81_%E6%90%9C%E7%B4%A2%E8%81%94%E5%90%88%E4%BC%A0%E6%92%AD%E6%A0%B7%E5%BC%8F-%E6%A0%87%E5%87%86%E8%89%B2%E7%89%88.png)]

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 字符串的长度超过了为 maxJsonLength 属性设置的值 QML内怎么根据字符串长度设置对应width的值限制字符串长度 python 字符串长度字符串排序字符串如何排序 c语言判断字符串长度实现 mysql 字符串先按照长度排序再按照ASCII码排序获取JSON格式的字符串各个属性对应的值 .net MVC 使用 JSON JavaScriptSerializer 进行序列化或反序列化时出错，字符串的长度超过了为 maxJsonLength 属性设置的值