多事之秋-最近在阿里雲上遇到的問題:負載均衡失靈、服務器 CPU 100%、被 DDoS 攻擊


昨天 22:00~22:30 左右與 23:30~00:30 左右,有1台服役多年的阿里雲負載均衡突然失靈,造成通過這台負載均衡訪問博客站點的用戶遭遇 502, 503, 504 ,由此給您帶來麻煩,請您諒解。

問題非常奇怪,從表現看,似乎負載均衡與后端服務器之間的內網通信出現了問題。有時健康檢查成功,但轉發請求到后端服務器會失敗;后端服務器明明正常,有時健康檢查卻失敗;最糟糕的時候,所有后端服務器都健康檢查失敗。而其他使用同樣后端服務器的負載均衡都沒出現這個問題,最終通過下線這台負載均衡解決了問題。

這台負載均衡是我們 2013 年剛上阿里雲時購買的,服役多年,之前從未出現這個問題,現在看來只能被迫讓它退役了。

昨天上午發現,我們用於部署除博客站點之外所有其他應用的 docker swarm 集群中所有服務器 CPU 100% 。

這個 CPU 100% 與通常的 CPU 100% 有很大的不一樣,雖然是 100% ,但不影響應用的正常運行。今年3月份也遇到到同樣的問題,當時通過 top 命令查看是 sy (system cpu time spent in kernel space) 占用了很多 CPU ,后來通過重啟集群中的所有 worker 節點服務器並重新部署應用解決的。

今天早上我們也采取了重啟節點服務器的方法,重啟后服務器 CPU 恢復了正常。但在操作過程中,閃存應用容器出現了問題,造成 15 分鍾左右閃存站點訪問不正常,由此給您帶來麻煩,請您諒解。

最近,博客站點遭遇多次 DDoS 攻擊,最高一次攻擊流量達到了近 80G 。一攻擊就會被阿里雲屏蔽30分鍾,雖然我們采取了應急措施,但全部生效要10分鍾左右,所以每次受攻擊影響的用戶可能要10分鍾左右才能恢復正常訪問,由此給您帶來您諒解,請您諒解。

在這個多事之秋,網站出現了很多次故障,給大家帶來了很大的麻煩,懇請大家的諒解。

這個多事之秋,對我們也是一種考驗,我們會吸取教訓,進一步提升自己,在接下來更加努力地和大家共建更加朝氣蓬勃的園子。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM