原文:故障處理流程和規范

背景 大數據團隊負責很多公司核心服務,包括olap查詢 隊列 日志搜索 數據傳輸 存儲 計算等等服務,作為公司數據傳輸和存儲及計算的中樞,服務的穩定性直接影響用戶口碑和體驗,間接影響着公司的營收,線上服務的穩定性是每位同學需要重點關注的事情。當然線上服務發生故障,做技術每位同學幾乎都會遇到,也是作為技術RD成長中經常要經歷的事。從故障中我們可以吸取到很多教訓,變得越來越有經驗,把我們的服務做得越來 ...

2019-10-19 17:21 0 1521 推薦指數:

查看詳情

OOM故障處理流程

一、OOM機制概述 Linux 內核有個機制叫OOM killer(Out Of Memory killer),該機制會監控那些占用內存過大,尤其是瞬間占用內存很快的進程,為防止內存耗盡而自動把該進 ...

Fri Aug 20 23:09:00 CST 2021 0 122
nessus 故障處理

0x00 問題描述 0x01 原因 0x02 解決辦法 1、windows環境 首先需要用管理員身份打開 cmd 窗口 1.1 進入到Nessusd.exe 所在目錄 1. ...

Wed Aug 21 00:13:00 CST 2019 2 841
NFS故障處理

NFS協議故障分析 目錄 NFS協議故障分析 前言 操作 NFS-SERVER CLIENT 前言 下面是最近我遠程在我們市某個高校機房處理的一則故障,我覺很有意思,分享一下 ...

Fri Apr 03 19:25:00 CST 2020 0 805
Podman 故障處理記錄

1- 1.podman 遇到there might not be enough IDs available in the namespace 1.1- 發現錯誤 在jenkins pipeline ...

Sun Dec 20 19:42:00 CST 2020 0 1094
etcd節點故障處理

問題:巡檢發現k8s集群的etcd集群狀態不對,其中有一個節點不健康,現象如下: 而且查詢etcd日志沒有太多報錯信息,時間和證書都是正常的,而且也沒有防火牆問題,於是開始進行如下操作 1.將有故障的etcd節點remove出集群: 由上面信息可知,有故障 ...

Mon Mar 01 06:20:00 CST 2021 0 878
#openstack故障處理匯總

##openstack故障處理匯總 排錯 openstack pike 部署 目錄匯總 http://www.cnblogs.com/elvi/p/7613861.html ##################################排錯 #清空日志rm -f ...

Wed Nov 08 23:58:00 CST 2017 0 2053
Zabbix故障處理系列

1、zabbix-proxy啟動狀態為activating問題. 解決辦法: 在/etc/zabbix/zabbix_proxy.conf中,加入如下: PidFile = /ru ...

Wed Nov 18 00:36:00 CST 2020 0 962
Ceph OSD故障處理

故障描述: 節前將所有ceph節點全部關機,節后開機后發現 osd 全部down ceph -s發現 HEALTH_WARN 320 pgs stale; 320 pgs stuck stale; 3/3 in osds are down 查詢很多資料都不知道如何處理,只能刪除 ...

Mon Feb 06 06:05:00 CST 2017 0 1939
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM