原文:關於運維之故障復盤篇-Case Study

關於故障的事后復盤,英文名 Case Study是非常有必要做的,當然是根據故障的級別,不可能做到每個故障都Case Study,除非人員和時間充足 文檔能力也是能力的一種,一般工程師的文檔能力比較薄弱或者一般 ,但是一般各種類型的文檔其實都有模板,根據模板填充內容也能事半功倍。 故障要有記錄, 每個公司應當都有wiki,這些復盤應當記錄下來,能學習到很多。Case Study會占用大量的時間, ...

2019-06-30 23:41 0 715 推薦指數:

查看詳情

經典案例——專家講述如何實現K8S落地(摘抄)

以下是滿滿K8s容器化進程記錄,摘抄一下,方便以后查閱。 背景介紹 滿滿自開始微服務改造以來,線上線下已有數千個微服務的 Java 實例在運行中。這些 Java 實例部署在數百台雲服務器或虛機上,除少數訪問量較高的關鍵應用外,大部分實例均混合部署。 這些實例的管理,采用自研平台結合開源 ...

Tue Jan 22 17:27:00 CST 2019 0 1263
職場:聚焦與

前言 聚焦與的意思很好理解。聚焦就是集合全部精力做你目標內的事。就是不定期對已發生或未發生的事重新思考改進優化的過程。 我也趁這個機會談一下我近期的主要目標。防止精力過分分散到其他地方。 聚焦 從九月份寫作了《實用中小型公司支付中心設計》,得到一些流量后,積分排名開始飆升,提升了我繼續寫 ...

Wed Sep 19 22:05:00 CST 2018 5 352
HBase 查詢導致RegionServer OOM故障

背景:我司作為某運營商公司的技術咨詢公司,發現有第三方開發公司在使用HBase 1.1.2 (HDP 2.4.2.258版本)一段時間使用正常后,從某一天開始報OOM,從而導致RegionServer宕機。 故障排查步驟 查看 regionserver的log ...

Tue Jan 24 19:55:00 CST 2017 0 2314
ceph集群故障--持續更新

一.PG處於異常狀態active+undersized+degraded 部署環境: 自己搭建的3節點集群,集群共5個OSD,部署Ceph的RadosGW的服務時,副本默認設置為3,集群存放數據量少 ...

Fri Jun 12 23:05:00 CST 2020 0 835
Linux故障排查思路

linux系統故障 網絡問題 linux系統無響應 linux系統無法啟動 linux系統故障處理思路 1.重視報錯信息,一般情況下此提示基本定位了問題的所在 2.查閱日志文件,系統日志和應用日志 3.分析、定位問題 4.動手解決 網絡問題處理思路 1.網絡硬件問題 ...

Sun Jul 15 21:59:00 CST 2018 0 1572
linux架構

集群規划說明 集群架構概念圖示 集群案例規划 集群主機規划表 關於主機規划注意事項: 灰色IP地址屬於臨時使用,企業場景一般沒有。 負載均衡器的 VIP10.0.0.3 ...

Wed Jan 09 19:13:00 CST 2019 0 1053
JAVA總結

寫這篇文章主要目的是完成自己多年來JAVA應用的一個總結,相當於個人知識庫,以后工作中遇到問題便於臨時查閱並不斷完善自己的知識體系。 上圖,就知道Tomcat在JAVA容器界 ...

Mon May 13 17:54:00 CST 2019 0 1608
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM