ElasticSearch插入性能优化

本文转载自查看原文 2020-04-11 16:52 1228 ElasticSearch

一、问题分析

　　最近公司的es插入/更新性能大幅度下降，单日数据（70w）刷入从原来10min+，变成了现在的解决3h。插入效率从1k-2k条/s，到现在100-200条/s。

　　总结了下问题的原因，有以下几点：

堆内存不足
segment数量过多导致内存吃紧
业务线程阻塞在BulkProcessor对象

二、问题优化方案

　　1、堆内存不足问题

　　如下图可看出，堆内存已经非常吃紧。Index Memory/segment这些都会吃掉我们大量内存。3g堆内存已经不能满足业务需求，只能充钱扩容了。

　　2、segment数量过多导致内存吃紧

更新数据导致索引变大

　　我们的业务是一个月一个索引，默认5个分片。每个一段时间会对几个月的数据进行重刷，重刷完后改动几率很低，基本只供查询。另外我对数据设置了唯一ID，没有用自动生成对ID。按道理，相同id对数据进行覆盖，重刷后索引大小不应该发生变化。但是每次重刷完后，索引大小都会变大几个G。这是什么原因导致对呢？

　　这里用mysql的索引和es的segment索引进行对比，mysql的索引在做了更新操作只会，会重构索引树。对于大量数据，这个操作是非常耗时的。我们看看es官方文档对于索引更新的介绍：

　　es对于更新和删除操作，不会重构原来的索引，这样会非常耗时，不够快。怎么最快？把原来的数据标记为删除，新建索引。

　　（地址：https://www.elastic.co/guide/cn/elasticsearch/guide/current/dynamic-indices.html）　　

　　对于删除和更新：　　

　　段是不可改变的，所以既不能从把文档从旧的段中移除，也不能修改旧的段来进行反映文档的更新。取而代之的是，每个提交点会包含一个 .del 文件，文件中会列出这些被删除文档的段信息。
当一个文档被 “删除” 时，它实际上只是在 .del 文件中被标记删除。一个被标记删除的文档仍然可以被查询匹配到，但它会在最终结果被返回前从结果集中移除。
　　文档更新也是类似的操作方式：当一个文档被更新时，旧版本文档被标记删除，文档的新版本被索引到一个新的段中。可能两个版本的文档都会被一个查询匹配到，但被删除的那个旧版本文档在结果集返回前就已经被移除。
　　在 “段合并” , 我们展示了一个被删除的文档是怎样被文件系统移除的。

　　总结：更新操作导致索引变大的原因是因为旧的数据实际上并没有被删除，要删除旧的doc，只能通过“段合并”的方式。

segment数目太多，需要合并

　　段数目太多会带来较大的麻烦。每一个段都会消耗文件句柄、内存和cpu运行周期。更重要的是，每个搜索请求都必须轮流检查每个段；所以段越多，搜索也就越慢。"段合并"操作应用于不常更新的索引。

　　对不常更新的索引进行"段合并"，每个分区合并为一个段。合并的原理如图：

　　基于5.X版本的段合并：

　　（1）获取目前索引各个分片的段大小和内存占用情况

　　　　GET /_cat/segments/imy-index-202003?v&h=shard,segment,size,size.memory

　　（这是测试环境的情况，段数及其占用内存都比较小）

　　（2）进行段合并，每个分区合并为一个段

　　　　POST /my-index-202003/_forcemerge?max_num_segments=1

　　　　max_num_segments：各分区合并后的段数

　　（3）段合并后的情况

　　3、业务线程阻塞在BulkProcessor对象优化

　　　　业务场景：10个线程并发执行，共享9个type的BulkProcessor（每个type一个BulkProcessor对象）；

　　　　用jconsole命令查看线程运行情况，发现线程阻塞在BulkProcessor对象的获取。刷一天数据，单个线程的阻塞数去到几千。

　　　　原因分析：

　　　　（1）es未进行扩容前，内存吃紧。写入es非常耗时，导致BulkProcessor提交数据非常耗时（BulkProcessor默认累计1000个doc或者数据达到5m就会触发提交）。锁住了BulkProcessor对象，影响了业务线程调用BulkProcessor对象的add()方法。

　　　　（2）BulkProcessor类是允许多线程提交的，通过设置concurrentRequests参数（默认：1），这个参数代表并发数，用于创建信号量。经查看，原来是公司组件设置了1个并发，emmm。

　　　　优化：

　　　　（1）修改基础组建，提高并发数。

　　　　（2）如何在并发情况下，不让业务线程阻塞在BulkProcessor.add()呢？（如何让业务线程可以继续执行业务操作，不受锁的影响）

　　　　借鉴BulkProcessor对象的1000个doc/5m数据才触发提交的思想。用空间换时间，在业务线程和BulkProcessor间新增一个阻塞队列（缓存作用），用于存放doc。

- n个线程负责计算业务，生成doc对象，添加到阻塞队列；
- n个线程负责从阻塞队列读取数据，并把数据往BulkProcessor.add()。
　这样就可以避免业务线程因为调用BulkProcessor.add()被Blocked的情况。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 MySQL插入性能优化 MySQL插入性能优化 Elasticsearch查询性能优化 ElasticSearch性能优化策略 ELASTICSEARCH 读写性能优化 Elasticsearch聚合性能优化 elasticsearch 性能优化 Elasticsearch性能优化干货 ElasticSearch性能优化官方建议亿级 Elasticsearch 性能优化