原文:故障处理流程和规范

背景 大数据团队负责很多公司核心服务,包括olap查询 队列 日志搜索 数据传输 存储 计算等等服务,作为公司数据传输和存储及计算的中枢,服务的稳定性直接影响用户口碑和体验,间接影响着公司的营收,线上服务的稳定性是每位同学需要重点关注的事情。当然线上服务发生故障,做技术每位同学几乎都会遇到,也是作为技术RD成长中经常要经历的事。从故障中我们可以吸取到很多教训,变得越来越有经验,把我们的服务做得越来 ...

2019-10-19 17:21 0 1521 推荐指数:

查看详情

OOM故障处理流程

一、OOM机制概述 Linux 内核有个机制叫OOM killer(Out Of Memory killer),该机制会监控那些占用内存过大,尤其是瞬间占用内存很快的进程,为防止内存耗尽而自动把该进 ...

Fri Aug 20 23:09:00 CST 2021 0 122
nessus 故障处理

0x00 问题描述 0x01 原因 0x02 解决办法 1、windows环境 首先需要用管理员身份打开 cmd 窗口 1.1 进入到Nessusd.exe 所在目录 1. ...

Wed Aug 21 00:13:00 CST 2019 2 841
NFS故障处理

NFS协议故障分析 目录 NFS协议故障分析 前言 操作 NFS-SERVER CLIENT 前言 下面是最近我远程在我们市某个高校机房处理的一则故障,我觉很有意思,分享一下 ...

Fri Apr 03 19:25:00 CST 2020 0 805
Podman 故障处理记录

1- 1.podman 遇到there might not be enough IDs available in the namespace 1.1- 发现错误 在jenkins pipeline ...

Sun Dec 20 19:42:00 CST 2020 0 1094
etcd节点故障处理

问题:巡检发现k8s集群的etcd集群状态不对,其中有一个节点不健康,现象如下: 而且查询etcd日志没有太多报错信息,时间和证书都是正常的,而且也没有防火墙问题,于是开始进行如下操作 1.将有故障的etcd节点remove出集群: 由上面信息可知,有故障 ...

Mon Mar 01 06:20:00 CST 2021 0 878
#openstack故障处理汇总

##openstack故障处理汇总 排错 openstack pike 部署 目录汇总 http://www.cnblogs.com/elvi/p/7613861.html ##################################排错 #清空日志rm -f ...

Wed Nov 08 23:58:00 CST 2017 0 2053
Zabbix故障处理系列

1、zabbix-proxy启动状态为activating问题. 解决办法: 在/etc/zabbix/zabbix_proxy.conf中,加入如下: PidFile = /ru ...

Wed Nov 18 00:36:00 CST 2020 0 962
Ceph OSD故障处理

故障描述: 节前将所有ceph节点全部关机,节后开机后发现 osd 全部down ceph -s发现 HEALTH_WARN 320 pgs stale; 320 pgs stuck stale; 3/3 in osds are down 查询很多资料都不知道如何处理,只能删除 ...

Mon Feb 06 06:05:00 CST 2017 0 1939
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM