原文:记录一次Flink作业异常的排查过程

最近 周开始接手apache flink全链路监控数据的作业,包括指标统计,业务规则匹配等逻辑,计算结果实时写入elasticsearch. 昨天遇到生产环境有作业无法正常重启的问题,我负责对这个问题进行排查跟进。 第一步,基础排查 首先拿到jobmanager和taskmanager的日志,我从taskmanager日志中很快发现 个基础类型的报错,一个是npe,一个是索引找不到的异常 elas ...

2020-06-17 16:07 0 571 推荐指数:

查看详情

记录一次Mysql死锁排查过程

与锁相关的源码,但是如果我们能够掌握基本的死锁排查方法,对我们的日常开发还是大有裨益的。PS:本文不会介 ...

Mon Feb 20 22:30:00 CST 2017 0 3701
记录一次http网络超时的排查过程

微信公众号:内核小王子 觉得可以的话欢迎关注 场景:公司对外网关对很多外部商户开放,运行多年一直正常,昨天某一个客户调用我们接口的时候频繁报connectiontimeout,异常如下: 该异常来自于httpclient,原因是创建连接超时,也就是tcp进行三握手的时候失败 ...

Tue May 21 22:50:00 CST 2019 0 829
记录一次Mysql死锁排查过程

地去分析与锁相关的源码,但是如果我们能够掌握基本的死锁排查方法,对我们的日常开发还是大有裨益的。 死锁 ...

Fri May 17 23:02:00 CST 2019 0 2716
一次故障排查过程

上周晚上,某环境 ES 出现阻塞, 运行缓慢。于是开始排查问题的过程。 开始 思路:现象是阻塞,通常是 CPU 彪高,导致业务线程分配不到 CPU 时间片,或者内存吃紧,频繁 GC 导致的 STW。 登录到目标服务器,由于 ES 的用户不是 LZ,因此找运维要了 root 权限,登录到服务器 ...

Fri Jan 25 20:50:00 CST 2019 2 969
一次奇怪的的bug排查过程

公司对底层基础库进行了重构,线上稳定跑了几天,在查看订单系统的log时,有几条error信息非常的奇怪, 订单有状态机进行维护 已经被撤消的订单不能再进行有其他操作,和状态更改。 已 ...

Tue Nov 30 18:00:00 CST 2021 2 1723
原创 记录一次线上Mysql慢查询问题排查过程

背景 前段时间收到运维反馈,线上Mysql数据库凌晨时候出现慢查询的报警,并把原始sql发了过来: 表数据量200W左右,不是很大,而且是根据主键更新。 问题排查 排查Mysql数据库 我看到sql后第一反应就是是不是数据库出问题了,每个小时都有业务,偏偏白天业务高峰时间段 ...

Fri Mar 27 21:00:00 CST 2020 0 964
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM