Elasticsearch：如何基於Script實現按照text屬性值的字符串長度排序

本文轉載自查看原文 2021-12-24 21:32 843 Elasticsearch

一、需求說明
二、解決方案
- 破浪前提：區分text和keyword之間的關系
- 語法總結
三、踩坑歷史
- 踩坑1：錯誤使用聚合屬性length
- 踩坑2：keyword值為空異常
四、參考資料

一、需求說明

今天有一個場景，基於企業標簽的數量進行排序。我的實現邏輯是按照企業的標簽字符串長度進行排序，在es中這也算一種聚合查詢的場景。

id	vipSign	licenses
1	1	A
2	0	A,C
3	1	A,C

優先按照vip標簽排序，然后再按照licenses的長度排序，期望結果應為：3、1、2。

已知，licenses屬性的mapping設置為：

{
  "type": "text",
  "fields": {
    "keyword": {
      "type": "keyword",
      "ignore_above": 256
    }
  }
}

二、解決方案

破浪前提：區分text和keyword之間的關系

困難纏身的原因一般是對基礎概念或特性的理解不足。

首先text屬性的字段在es中存儲時，會被自動分詞存儲；text屬性的字段是支持分詞，但不支持聚合的。我們可以在kibana的index patterns中可以查看索引屬性的特性。

語法總結

type為text時，我們可以通過doc['field_name'].length或者doc['field_name'].size()獲取該屬性對應數組的長度；
type為keyword字符串情形下,則使用doc['field_name.keyword'].value.length()獲取屬性值的長度，但是需要注意，如果doc['field_name.keyword'].value的值存在為null的情況，因此需要使用doc['field_name.keyword'].size()優先判空。

最終的腳本為：

POST /lpm-route-v2/_search
{
    "from": 0,
    "size": 10,
    "query": {
      "terms": {
        "id": [
          "66108",
          "72221"
        ]
      }
    }, 
    "sort": [
        {
            "store.company.vipSign": {
                "order": "desc"
            }
        },
        {
            "_script": {
                "script": {
                    "source": "doc['store.company.licenses.keyword'].size()>0 ?doc['store.company.licenses.keyword'].value.length():0",
                    "lang": "painless"
                },
                "type": "number",
                "order": "desc"
            }
        }
    ]
}

三、踩坑歷史

踩坑1：錯誤使用聚合屬性length

錯誤寫法

POST /lpm-route-v2/_search
{
    "from": 0,
    "size": 10,
    "query": {"match_all": {}}, 
    "sort": [
        {
            "store.company.vipSign": {
                "order": "desc"
            }
        },
        {
            "_script": {
                "script": {
                    "source": "doc['store.company.licenses'].length",
                    "lang": "painless"
                },
                "type": "number",
                "order": "desc"
            }
        }
    ]
}

提示信息如下，即默認不支持聚合和排序：

"reason" : "Text fields are not optimised for operations that require per-document field data like aggregations and sorting, so these operations are disabled by default. Please use a keyword field instead. Alternatively, set fielddata=true on [store.company.licenses] in order to load field data by uninverting the inverted index. Note that this can use significant memory."

腳本表達式正確寫法為：
doc['store.company.licenses.keyword'].length。錯誤寫法中表達的含義為統計元素的個數，可以理解為數組元素的個數。

命中結果的排序均為：

{
        "_index" : "lpm-company-v1",
        "_type" : "_doc",
        "_id" : "5229",
        "_score" : null,
        "_source" : {
          ...
        },
        "sort" : [
          1,
          1.0
        ]
      },

也就是說，第二個字段doc['store.company.licenses'].length的值為1，同：doc['store.company.licenses'].size()，返回結果為數組的長度，那么如何返回字符串的長度呢？

踩坑2：keyword值為空異常

"caused_by" : {
    "type" : "illegal_state_exception",
    "reason" : "A document doesn't have a value for a field! Use doc[<field>].size()==0 to check if a document is missing a field!"
  }

原因：字符串字段中存儲有null值。
解決辦法：doc['licenses.keyword'].size() !=0 ?doc['licenses.keyword'].value.length() :0

四、參考資料

感謝您的賞讀~
您還可以關注我的微信公眾號回復“es腦圖”，獲取我的Elasticsearch學習思維導圖哦。👌，就這么“定”了！

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-Ih68eiNw-1622215244567)(https://gitee.com/cowboy2014/cloud2020-config/raw/master//pictures/%E6%89%AB%E7%A0%81_%E6%90%9C%E7%B4%A2%E8%81%94%E5%90%88%E4%BC%A0%E6%92%AD%E6%A0%B7%E5%BC%8F-%E6%A0%87%E5%87%86%E8%89%B2%E7%89%88.png)]

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 字符串的長度超過了為 maxJsonLength 屬性設置的值字符串的長度超過了為 maxJsonLength 屬性設置的值 JSON JavaScriptSerializer 字符串的長度超過了為 maxJsonLength 屬性設置的值。（52）ElasticSearch之字符串排序問題此請求的查詢字符串的長度超過配置的 maxQueryStringLength 值 QML內怎么根據字符串長度設置對應width的值 MongoDB 字符串值長度條件查詢 Java實現List中某個對象屬性中的字符串參數首字母進行排序如何計算字符串的長度？ lua字符串長度