Elasticsearch 對於大數據量(上億量級)的聚合如何實現?


 

Elasticsearch 提供的首個近似聚合是 cardinality 度量它提供一個字段的基數

即該字段的 distinct 或者 unique 值的數目它是基於 HLL 算法的。HLL 會先對 

我們的輸入作哈希運算然后根據哈希運算的結果中的 bits 做概率估算從而得到 

基數其特點是可配置的精度用來控制內存的使用更精確 = 更多內存);

小的數據集精度是非常高的我們可以通過配置參數來設置去重需要的固定內 

存使用量無論數千還是數十億的唯一值內存使用量只與你配置的精確度相關


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM