原文:记一次 Kafka 集群线上扩容

前段时间收到某个 Kafka 集群的生产客户端反馈发送消息耗时很高,于是花了一段时间去排查这个问题,最后该集群进行扩容,由于某些主题的当前数据量实在太大,在对这些主题迁移过程中话费了很长一段时间,不过这个过程还算顺利,因为在迁移过程中也做足了各方面的调研,包括分区重平衡过程中对客户端的影响,以及对整个集群的性能影响等,特此将这个过程总结一下,也为双十一打了一剂强心剂。 排查问题与分析 接到用户的反 ...

2019-12-19 20:41 0 1813 推荐指数:

查看详情

一次线上Kafka消息堆积踩坑总结

,与其他业务系统的通信方式采用了第三代消息系统中间件Kafka。由于是第一次使用,踩了很多坑,通过这篇博客和大 ...

Sat Sep 29 01:20:00 CST 2018 2 7389
一次线上kafka一直rebalance故障

来源 https://www.jianshu.com/p/271f88f06eb3 今天我司线上kafka消息代理出现错误日志,异常rebalance,而且平均间隔2到3分钟就会rebalance一次,分析日志发现比较严重。错误日志 ...

Mon Mar 02 04:10:00 CST 2020 0 1334
一次线上优化实战

前言: 是这样的,这周三我在测试一个接口的时候,发现竟然超时了。我们RPC框架用的DUBBO,我超时设置的时间为 timeout=3s。 按照道理,一个方法超过3s,对用户是非常不友好的,用户会立 ...

Wed Jan 23 19:27:00 CST 2019 2 891
一次线上 OOM 和性能优化

大家好,我是鸭血粉丝(大家会亲切的喊我 「阿粉」),是一位喜欢吃鸭血粉丝的程序员,回想起之前线上出现 OOM 的场景,毕竟当时是第一次遇到这么 紧脏 的大事,要好好记录下来。 1 事情回顾 在某次周五,通过 Grafana 监控,发现线上环境突然出现CPU和内存飙升的情况: 但是看到网络 ...

Thu Jan 02 05:44:00 CST 2020 1 973
一次 android 线上 oom 问题

背景 公司的主打产品是一款跨平台的 App,我的部门负责为它提供底层的 sdk 用于数据传输,我负责的是 Adnroid 端的 sdk 开发。 sdk 并不直接加载在 App 主进程,而是隔离在一 ...

Mon Nov 29 17:54:00 CST 2021 1 297
一次线上问题 → 事务去哪了

开心一刻   小羊:哎呀,前面有奶喝   狗妈:这谁呀,走开   小羊:我就喝点,能怎么的嘛   狗妈:你喝就喝,咋还上头了呢?   小羊:真香!   狗妈:这羊犊子,真硬核! 问题 ...

Thu Jan 02 17:09:00 CST 2020 6 1533
一次sda1扩容

第一步,先去设置扩展磁盘: 第二步: 在应用里面搜索gparted: 如果没有则安装,apt-get install gparted -y 然后启动 依次删除linux-swap和extended这两项,不要害怕,大胆删除,如图: (我这是已经扩容成功的,之前是20G) 然后在/sda1 ...

Sat Oct 10 20:16:00 CST 2020 0 741
一次dirty_ratio引起的线上事故

故障时间轴 发生时间:2020-09-14 06:40 发现时间:2020-09-14 06:41 响应时间:2020-09-14 07:42 故障表现 磁盘> ...

Mon Sep 14 21:12:00 CST 2020 0 431
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM