@
一、需求說明
今天有一個場景,基於企業標簽的數量進行排序。我的實現邏輯是按照企業的標簽字符串長度進行排序,在es中這也算一種聚合查詢的場景。
id | vipSign | licenses |
---|---|---|
1 | 1 | A |
2 | 0 | A,C |
3 | 1 | A,C |
優先按照vip標簽排序,然后再按照licenses的長度排序,期望結果應為:3、1、2。
已知,licenses屬性的mapping設置為:
{
"type": "text",
"fields": {
"keyword": {
"type": "keyword",
"ignore_above": 256
}
}
}
二、解決方案
破浪前提:區分text和keyword之間的關系
困難纏身的原因一般是對基礎概念或特性的理解不足。
首先text屬性的字段在es中存儲時,會被自動分詞存儲;text屬性的字段是支持分詞,但不支持聚合的。我們可以在kibana的index patterns
中可以查看索引屬性的特性。
語法總結
type
為text
時,我們可以通過doc['field_name'].length
或者doc['field_name'].size()
獲取該屬性對應數組的長度;type
為keyword
字符串情形下,則使用doc['field_name.keyword'].value.length()
獲取屬性值的長度,但是需要注意,如果doc['field_name.keyword'].value
的值存在為null的情況,因此需要使用doc['field_name.keyword'].size()
優先判空。
最終的腳本為:
POST /lpm-route-v2/_search
{
"from": 0,
"size": 10,
"query": {
"terms": {
"id": [
"66108",
"72221"
]
}
},
"sort": [
{
"store.company.vipSign": {
"order": "desc"
}
},
{
"_script": {
"script": {
"source": "doc['store.company.licenses.keyword'].size()>0 ?doc['store.company.licenses.keyword'].value.length():0",
"lang": "painless"
},
"type": "number",
"order": "desc"
}
}
]
}
三、踩坑歷史
踩坑1:錯誤使用聚合屬性length
錯誤寫法
POST /lpm-route-v2/_search
{
"from": 0,
"size": 10,
"query": {"match_all": {}},
"sort": [
{
"store.company.vipSign": {
"order": "desc"
}
},
{
"_script": {
"script": {
"source": "doc['store.company.licenses'].length",
"lang": "painless"
},
"type": "number",
"order": "desc"
}
}
]
}
提示信息如下,即默認不支持聚合和排序:
"reason" : "Text fields are not optimised for operations that require per-document field data like aggregations and sorting, so these operations are disabled by default. Please use a keyword field instead. Alternatively, set fielddata=true on [store.company.licenses] in order to load field data by uninverting the inverted index. Note that this can use significant memory."
腳本表達式正確寫法為:
doc['store.company.licenses.keyword'].length
。錯誤寫法中表達的含義為統計元素的個數,可以理解為數組元素的個數。
命中結果的排序均為:
{
"_index" : "lpm-company-v1",
"_type" : "_doc",
"_id" : "5229",
"_score" : null,
"_source" : {
...
},
"sort" : [
1,
1.0
]
},
也就是說,第二個字段doc['store.company.licenses'].length
的值為1,同:doc['store.company.licenses'].size()
,返回結果為數組的長度,那么如何返回字符串的長度呢?
踩坑2:keyword值為空異常
"caused_by" : {
"type" : "illegal_state_exception",
"reason" : "A document doesn't have a value for a field! Use doc[<field>].size()==0 to check if a document is missing a field!"
}
原因:字符串字段中存儲有null值。
解決辦法:doc['licenses.keyword'].size() !=0 ?doc['licenses.keyword'].value.length() :0
四、參考資料
- 解決 SpringBoot Elasticsearch 7.x 聚合查詢遇到的問題
- Elasticsearch 按照字段的長度過濾 (該字段必須為keyword 類型)附帶api
- ElasticSearch通過字段值的長度過濾 7.x不適用
- elasticsearch中如何依據字符串長度過濾
- ElasticSearch按字符串長度排序
感謝您的賞讀~
您還可以關注我的微信公眾號回復“es腦圖”,獲取我的Elasticsearch學習思維導圖哦。👌,就這么“定”了!