原文:由Redis的hGetAll函數所引發的一次服務宕機事件

昨晚通宵生產壓測,終於算是將生產服務宕機的原因定位到了,心累。這篇博客,算作一個復盤和記錄吧。。。 先來看看Redis的緩存淘汰算法思維導圖: 說明:當實際占用的內存超過Redis配置的maxmemory時,Redis就會根據用戶選擇淘汰策略清除被選中的key。 業務場景:用戶通過微信入口來訪問一個頁面 測試場景:通過多線程模擬定量的並發來訪問頁面服務 涉及架構:springsession Red ...

2018-12-21 22:08 1 538 推薦指數:

查看詳情

記錄一次Centos7宕機事件

事件背景 2020年9月25日18點18分,收到告警,大數據02節點宕機,發現此問題出現過3,分別在生成大數據服務器的2個節點上發生。這次決心要查處問題。 服務是CDH節點,就是大數據那一套東西。 系統版本:CentOS Linux release 7.3.1611 內核版本 ...

Mon Sep 28 02:31:00 CST 2020 0 2462
記錄一次服務器突然宕機的排查

服務器突然宕機,領導找了服務器供應商,然后供應商發來一張馬賽克畫質的圖片。說是我們做了什么操作,透過馬賽克,隱約能看到一些 以及一些,供應商說是因為升級操作導致的,但是上面分明是22號升級的,23號宕的機。 全圖(眼差點瞎了) 查看系統日志 所有日志目錄 查看 ...

Mon Nov 25 23:33:00 CST 2019 0 347
一次Kafka服務宕機的真實經歷!!

大家好,我是冰河~~ 估計節前前祭拜服務器不靈了,年后服務器總是或多或少的出現點問題。不知是人的問題,還是風水問題。昨天下班時,跟運維小伙伴交代了好幾遍:如果使用Docker安裝Kafka集群的話,也需要把Kafka集群的服務器硬盤分配的大一些,公司業務量很大,很多服務的通信、數據的流轉、日志 ...

Sun Oct 10 02:40:00 CST 2021 3 1057
一次VLAN標簽引發的網絡事件的處置

一次VLAN標簽引發的網絡事件的處置 一、背景介紹 事件背景:   HZ某分公司新裝一套業務系統,通過一條專線和BJ總公司連通。分配給HZ公司的ip地址為:a.b.c.X,掩碼24位,網關a.b.c.1。BJ總公司網絡管理員無法聯系、相關配置未知。 故障現象:   HZ分公司端光貓 ...

Fri Mar 26 03:40:00 CST 2021 0 285
一次 “靈異事件” 及由此引發的思考

上個周日,即 5 月 12 日,風和日麗,正和朋友在天河公園悠閑的散步。突然接到運營的電話,語氣匆匆的說道: “xxx, 不好啦,陰陽師官方論壇 好像被黑客攻擊了,全部頁面變成黑白了,看着挺嚇人的,你 ...

Thu May 16 19:30:00 CST 2019 7 1929
一次線上Redis類轉換異常排查引發的思考

之前同事反饋說線上遇到Redis反序列化異常問題,異常如下: 已知信息如下: 該異常不是必現的,偶爾才會出現; 出現該異常后重啟應用或者過一會就好了; 序列化協議使用了hessian。 因為偶爾出現,首先看了報異常那塊業務邏輯是不是有問題,看了一遍也發現 ...

Mon Jun 24 19:05:00 CST 2019 0 885
【故障公告】redis 服務宕機引發博客站點故障

非常抱歉,今天下午 17:10~17:40 左右,由於博客系統所使用的 redis 服務宕機,造成博客站點無法正常訪問,由此給您帶來很大的麻煩,請您諒解。 我們會針對這次故障改進 redis 服務器的部署,提高 redis 服務器的高可用性。目前 redis 服務是用阿里雲服務器單獨部署 ...

Thu Jul 15 02:53:00 CST 2021 35 4679
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM