事件背景 2020年9月25日18點18分,收到告警,大數據02節點宕機,發現此問題出現過3次,分別在生成大數據服務器的2個節點上發生。這次決心要查處問題。 服務是CDH節點,就是大數據那一套東西。 系統版本:CentOS Linux release 7.3.1611 內核版本 ...
昨晚通宵生產壓測,終於算是將生產服務宕機的原因定位到了,心累。這篇博客,算作一個復盤和記錄吧。。。 先來看看Redis的緩存淘汰算法思維導圖: 說明:當實際占用的內存超過Redis配置的maxmemory時,Redis就會根據用戶選擇淘汰策略清除被選中的key。 業務場景:用戶通過微信入口來訪問一個頁面 測試場景:通過多線程模擬定量的並發來訪問頁面服務 涉及架構:springsession Red ...
2018-12-21 22:08 1 538 推薦指數:
事件背景 2020年9月25日18點18分,收到告警,大數據02節點宕機,發現此問題出現過3次,分別在生成大數據服務器的2個節點上發生。這次決心要查處問題。 服務是CDH節點,就是大數據那一套東西。 系統版本:CentOS Linux release 7.3.1611 內核版本 ...
目錄 簡介 日志分析 副本集 如何實現 Failover 心跳的實現 electionTimeout 定時器 業務影響評估 參考 ...
服務器突然宕機,領導找了服務器供應商,然后供應商發來一張馬賽克畫質的圖片。說是我們做了什么操作,透過馬賽克,隱約能看到一些 以及一些,供應商說是因為升級操作導致的,但是上面分明是22號升級的,23號宕的機。 全圖(眼差點瞎了) 查看系統日志 所有日志目錄 查看 ...
大家好,我是冰河~~ 估計節前前祭拜服務器不靈了,年后服務器總是或多或少的出現點問題。不知是人的問題,還是風水問題。昨天下班時,跟運維小伙伴交代了好幾遍:如果使用Docker安裝Kafka集群的話,也需要把Kafka集群的服務器硬盤分配的大一些,公司業務量很大,很多服務的通信、數據的流轉、日志 ...
一次VLAN標簽引發的網絡事件的處置 一、背景介紹 事件背景: HZ某分公司新裝一套業務系統,通過一條專線和BJ總公司連通。分配給HZ公司的ip地址為:a.b.c.X,掩碼24位,網關a.b.c.1。BJ總公司網絡管理員無法聯系、相關配置未知。 故障現象: HZ分公司端光貓 ...
上個周日,即 5 月 12 日,風和日麗,正和朋友在天河公園悠閑的散步。突然接到運營的電話,語氣匆匆的說道: “xxx, 不好啦,陰陽師官方論壇 好像被黑客攻擊了,全部頁面變成黑白了,看着挺嚇人的,你 ...
之前同事反饋說線上遇到Redis反序列化異常問題,異常如下: 已知信息如下: 該異常不是必現的,偶爾才會出現; 出現該異常后重啟應用或者過一會就好了; 序列化協議使用了hessian。 因為偶爾出現,首先看了報異常那塊業務邏輯是不是有問題,看了一遍也發現 ...
非常抱歉,今天下午 17:10~17:40 左右,由於博客系統所使用的 redis 服務器宕機,造成博客站點無法正常訪問,由此給您帶來很大的麻煩,請您諒解。 我們會針對這次故障改進 redis 服務器的部署,提高 redis 服務器的高可用性。目前 redis 服務是用阿里雲服務器單獨部署 ...