Elasticsearch 對於大數據量（上億量級）的聚合如何實現？

本文轉載自查看原文 2020-07-17 13:24 2037 面試題

Elasticsearch 提供的首個近似聚合是 cardinality 度量。它提供一個字段的基數，

即該字段的 distinct 或者 unique 值的數目。它是基於 HLL 算法的。HLL 會先對

我們的輸入作哈希運算，然后根據哈希運算的結果中的 bits 做概率估算從而得到

基數。其特點是：可配置的精度，用來控制內存的使用（更精確＝更多內存）；

小的數據集精度是非常高的；我們可以通過配置參數，來設置去重需要的固定內

存使用量。無論數千還是數十億的唯一值，內存使用量只與你配置的精確度相關。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 在.Net環境下使用elasticsearch實現大數據量的搜索 MySQL大數據量快速分頁實現 POI實現excel大數據量導入 MySQL大數據量的導入探討大數據量處理對於大數據量的Json解析 R語言操作mysql上億數據量(ff包ffbase包和ETLUtils包) Elasticsearch：大數據量下如何做分頁查詢？ spring Batch實現數據庫大數據量讀寫 C#實現大數據量TXT文本數據快速高效去重