elasticsearch聚合操作——本質就是針對搜索后的結果使用桶bucket（允許嵌套）進行group by，統計下分組結果，包括min/max/avg

本文轉載自查看原文 2017-01-23 18:10 7022 elasticsearch

分析

最后，我們還有一個需求需要完成：允許管理者在職員目錄中進行一些分析。 Elasticsearch有一個功能叫做聚合(aggregations)，它允許你在數據上生成復雜的分析統計。它很像SQL中的GROUP BY但是功能更強大。

舉個例子，讓我們找到所有職員中最大的共同點（興趣愛好）是什么：

GET /megacorp/employee/_search
{
  "aggs": { "all_interests": { "terms": { "field": "interests" } } } }

暫時先忽略語法只看查詢結果：

{
   ...
   "hits": { ... }, "aggregations": { "all_interests": { "buckets": [ { "key": "music", "doc_count": 2 }, { "key": "forestry", "doc_count": 1 }, { "key": "sports", "doc_count": 1 } ] } } }

我們可以看到兩個職員對音樂有興趣，一個喜歡林學，一個喜歡運動。這些數據並沒有被預先計算好，它們是實時的從匹配查詢語句的文檔中動態計算生成的。如果我們想知道所有姓"Smith"的人最大的共同點（興趣愛好），我們只需要增加合適的語句既可：

GET /megacorp/employee/_search
{
  "query": { "match": { "last_name": "smith" } }, "aggs": { "all_interests": { "terms": { "field": "interests" } } } }

all_interests聚合已經變成只包含和查詢語句相匹配的文檔了：

  ...
  "all_interests": { "buckets": [ { "key": "music", "doc_count": 2 }, { "key": "sports", "doc_count": 1 } ] }

聚合也允許分級匯總。例如，讓我們統計每種興趣下職員的平均年齡：

GET /megacorp/employee/_search
{
    "aggs" : { "all_interests" : { "terms" : { "field" : "interests" }, "aggs" : { "avg_age" : { "avg" : { "field" : "age" } } } } } }

雖然這次返回的聚合結果有些復雜，但任然很容易理解：

  ...
  "all_interests": { "buckets": [ { "key": "music", "doc_count": 2, "avg_age": { "value": 28.5 } }, { "key": "forestry", "doc_count": 1, "avg_age": { "value": 35 } }, { "key": "sports", "doc_count": 1, "avg_age": { "value": 25 } } ] }

該聚合結果比之前的聚合結果要更加豐富。我們依然得到了興趣以及數量（指具有該興趣的員工人數）的列表，但是現在每個興趣額外擁有avg_age字段來顯示具有該興趣員工的平均年齡。

即使你還不理解語法，但你也可以大概感覺到通過這個特性可以完成相當復雜的聚合工作，你可以處理任何類型的數據。

為了掌握聚合aggs語法，你一定要了解兩個主要概念：

Buckets(桶)：

滿足某個條件的文檔集合。

Metrics(指標)：

為某個桶中的文檔計算得到的統計信息。

就是這樣！每個聚合只是簡單地由一個或者多個桶，零個或者多個指標組合而成。

桶和SQL中的組(Grouping)擁有相似的概念，而指標則與COUNT()，SUM()，MAX()，MIN(), AVG()等相似。

讓我們仔細看看這些概念。

桶(Buckets)

一個桶就是滿足特定條件的一個文檔集合：

一名員工要么屬於男性桶，或者女性桶。

一個聚合就是一些桶和指標的組合。一個聚合可以只有一個桶，或者一個指標，或者每樣一個。在桶中甚至可以有多個嵌套的桶。比如，我們可以將文檔按照其所屬國家進行分桶，然后對每個桶計算其平均薪資(一個指標)。

因為桶是可以嵌套的，我們能夠實現一個更加復雜的聚合操作：

將文檔按照國家進行分桶。(桶)
然后將每個國家的桶再按照性別分桶。(桶)
然后將每個性別的桶按照年齡區間進行分桶。(桶)
最后，為每個年齡區間計算平均薪資。

大家一定要理解Buckets(桶)及Metrics(指標)概念，buckets多層嵌套的概念，想基於哪個桶做統計計算，只需要嵌入一層aggs就可以了。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 GROUP BY 聚合函數(max min sum avg count) 和HAVING的使用 ElasticSearch基礎6：Bucket桶聚合 [ElasticSearch]ES操作之總和桶聚合(Sum Bucket Aggregation) group by與avg(),max(),min(),sum()函數的關系 ElasticSearch 的Bucket Aggregation 桶聚合(包含javaApi) MySQL之聚合數據（AVG,COUNT,MAX,MIN,SUM) redis-緩存設計-統計max min sum count avg java使用elasticsearch分組進行聚合查詢（group by）-項目中實際應用 Oracle分析函數-統計（sum、avg、max、min） Django學習路17_聚合函數(Avg平均值,Count數量,Max最大,Min最小,Sum求和)基本使用