记一次订单号事故 去年年底的时候,我们线上出了一次事故,这个事故的表象是这样的: 系统出现了两个一模一样的订单号,订单的内容却不是不一样的,而且系统在按照 订单号查询的时候一直抛错,也没法正常回调,而且事情发生的不止一次,所以 这次系统升级一定要解决掉。 经手的同事之前也改过几次 ...
今天在修改了数据库参数后,关闭数据库及crs,然后重新启动了服务器,服务器启动完成之后,发现数据库无法启动,过程如下: step :重启数据库 step :重启服务器: 等服务器重启完成,发现crs起不来: 根据以前的经验,服务器起来后 分钟左右,crs即可启动完成。然而等待了 分钟,依然无法启动。 step :于是请求协助,通过手动启动crs,发现crs启动了。 经过大概 分钟的等待,数据库的资 ...
2018-02-11 22:56 0 1867 推荐指数:
记一次订单号事故 去年年底的时候,我们线上出了一次事故,这个事故的表象是这样的: 系统出现了两个一模一样的订单号,订单的内容却不是不一样的,而且系统在按照 订单号查询的时候一直抛错,也没法正常回调,而且事情发生的不止一次,所以 这次系统升级一定要解决掉。 经手的同事之前也改过几次 ...
在引入Spring的Validated时,需要声明如下bean: 出于偷懒,放在了如下的一个初始化中: ...
事故经过:网站突然无法正常使用,php子进程骤高,询问开发无改动代码,查看cpu,内存均无异常,最后查看磁盘使用率100%,然后通过top查看是php进程导致,就一直在查找代码问题,均无收获,最后实在没辙了,老大说删除下日志试试吧,删完后网站恢复正常。突然想到一个东西inode,当时由于没有常看 ...
早上上班后得知,服务费未同步到代理商系统。查看draft_server系统生产环境的log,显示在往RabbitMQ推数据时出现异常:no route to host。 打 ...
错误使用map引发的血案 前言 场景复原 原因 参考 错误使用map引发的血案 前言 最近业务中,同事使用map来接收返回的结果,使用 ...
写在前面 今天,跑在阿里云ECS上的生产环境,突然间访问异常,接口各种报错,无奈公司没有专业的运维人员,只能硬着头皮解决一下。 问题排查 先从表面看起,数据库首先报错 直观上看,设备没有可 ...
今天线上的hadoop集群崩溃了,现象是namenode一直在GC,长时间无法正常服务。最后运维大神各种倒腾内存,GC稳定后,服务正常。虽说全程在打酱油,但是也跟着学习不少的东西。 第一个问题:为什么会频繁GC 有过JVM经验的开发者都应该知道,GC是在内存不够时,JVM自动进行 ...
接口m。服务A起了一个定时任务Task: 从db查询数据总共有1200+条,每条记录对应一次请求,循环 ...