原文:生產環境出現事故,開發和運維都有責任,到底該誰背鍋

發生一檔子事情,公司技術團隊之中有兩個部門,一個開發一個運維,開發負責公司項目軟件項目實現,運維負責項目運行生產環境服務器與數據的管理與維護。 前兩天生產環境發生一起故障,項目依賴的redis服務器由於內存不足而出現寫入故障,有一批用戶丟失了一小時的數據, 公司發出批評通告, 運維全責,運維部門涉事相關員工與領導統統被罰。 為什么運維被罰,因為服務器內存不足會報警,向負責服務器的運維人員發出警告短 ...

2019-01-18 10:58 32 4149 推薦指數:

查看詳情

開發導致的內存泄露問題,小伙伴兒這樣排查不

前些日子小組內安排值班,輪流看顧我們的服務,主要做一些報警郵件處理、Bug排查、運營issue處理的事。工作日還好,無論干什么都要上班的,若是輪到周末,那這一天算是毀了。 不知道是公司網絡廣了就這樣還是網絡組不給力,網絡總有問題,不是這邊交換機脫網了,就是那邊路由器壞了,還偶發地各種超時 ...

Fri Nov 27 17:09:00 CST 2020 2 289
Nginx 轉發時的一個坑,居然讓我!!

最近遇到一個 Nginx 轉發的坑,一個請求轉發到 Tomcat 時發現有幾個 http header 始終獲取不到,導致線上出現 bug,說不是他的問題,這個了。 新增的幾個 header 是這樣的: accept_sign accept_token ...

Thu Dec 10 00:29:00 CST 2020 5 2011
這樣查生產問題,不做

技術的太多,到底該不該你? 一大早就被微信群炸醒,開發短信服務的猿妹子,在公司微信群里說: 短信的生產環境服務器, CPU 占用率過高,瘋狂報警,應該是你們昨天上線看門狗導致的(看門狗:守護短信服務的監控應用,后續有機會再進行分享)。 沒錯,昨天確實給短信服務裝上了看門狗。但是看門狗服務 ...

Tue Apr 21 22:44:00 CST 2020 26 3458
的藝術:需求臨時變更上線后出事故誰的

按照已確認的需求,代碼都快要上線了,產品提出需求變更,匆匆改完代碼上線后導致重大 bug,責任)應該是研發還是產品來呢? 工作中是常態。柱哥想說:不可怕,了無數口還沒有一點長進才是最可怕的。 下面我們聊聊如何更有效的: 分原則 首先,我們需要明確責任原則:誰執行 ...

Mon Jun 01 18:19:00 CST 2020 0 1542
線上事故竟然是自己的!!!

前言 前段時間,我們線上系統出現了一個事故:用戶創建了商品,在商城的商品列表頁看不到,也搜索不到。、 這個問題持續了大概半個小時,最后發現竟然是我的。 這個事情怎么說呢,完全是我自己把自己坑了。到底怎么回事呢? 1. 從需求說起 1.1 背景 由於我們這個迭代是個大版本,上線的日子 ...

Mon Apr 11 05:35:00 CST 2022 1 740
為什么PUSH推送要經常

前言 只有光頭才能變強。 文本已收錄至我的GitHub精選文章,歡迎Star:https://github.com/ZhongFuCheng3y/3y 自從做了推送以后,每隔一段時間就發現有各大的公司推送事故出現。 你問我做開發的慌不慌,我當然慌得一批 ...

Wed May 13 17:18:00 CST 2020 0 876
RedisTemplate:我不,是你用錯了

今天分享一個RedisTemplate的問題,感興趣的可以繼續看下去了,不感興趣的繼續撩妹去吧! 如下圖:一位朋友給了我一個報錯的圖片,為啥為啥取不到值? 我也有點懵,第一反應就是RedisT ...

Wed Mar 11 21:51:00 CST 2020 2 1066
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM