原文:用long類型讓我出了次生產事故,寫代碼還是要小心點

昨天發現線上試跑期的一個程序掛了,平時都跑的好好的,查了下日志是因為昨天運營跑了一家美妝top級淘品牌店,會員量近千萬,一下子就把 G的內存給爆了,當時並行跑了二個任務,沒轍先速寫一段代碼限流,后面再做進一步優化。 一: 背景 . 背景介紹 因為是自己寫的代碼,所以我知道問題出現在哪里,如果大家看過我之前寫的文章應該知道我用全內存跑了很多模型對用戶打標簽,一個模型就是一組定向的篩選條件,而為了加速 ...

2020-04-27 07:41 17 3236 推薦指數:

查看詳情

次生產事故的優化經歷

在一次正常的活動促銷之后,客服開始陸續反饋有用戶反應在搶標的時候打不開網頁或者APP,在打開的時候標的就已經被搶光了,剛開始沒有特別的上心,覺得搶標不就是這樣嗎,搶小米手機的時候也不就這樣嗎?隨着活動 ...

Mon Feb 06 16:50:00 CST 2017 88 20906
次生產事故后感

今晚我們的其中一個產品的其中一個比較偏的環境出現了一次生產事故, 前端所有請求都發送失敗。 我是中途被通知出了事故的,這事甚至驚動了一些領導。 期間有懷疑是我做的前端改動導致的問題。 最終排查,發現是ngix的配置錯誤導致的,通過修改配置修復了問題。 事情雖然結束過去 ...

Wed Jul 21 07:27:00 CST 2021 13 1698
記一次生產事故--磁盤被占滿

寫在前面 今天,跑在阿里雲ECS上的生產環境,突然間訪問異常,接口各種報錯,無奈公司沒有專業的運維人員,只能硬着頭皮解決一下。 問題排查 先從表面看起,數據庫首先報錯 直觀上看,設備沒有可用空間,也就是磁盤滿了。 進入服務器后台,執行 發現確實磁盤滿了,而且滿的很徹底。系統盤 ...

Tue Feb 11 03:58:00 CST 2020 0 782
記一次生產kafka消息消費的事故

事故背景:   我們公司與合作方公司有個消息同步的需求,合作方是消息生產者,我們是消息消費者,他們通過kafka給我們推送消息,我們實時接收,然后進行后續業務處理。昨天上午,發現他們推送過來的廣場門店信息我們都沒有消費,導致我們系統和他們系統數據不一致,從而導致無法提單,無法出報表(報表有誤 ...

Wed Jun 12 18:07:00 CST 2019 0 571
深入認識二進制序列化--記一次生產事故的思考

一 概要 二進制序列化是公司內部自研微服務框架的主要的數據傳輸處理方式,但是普通的開發人員對於二進制的學習和了解並不深入,容易導致使用過程中出現了問題卻沒有分析解決的思路。本文從一次生產環境的事故引入這個話題,通過對於事故的分析過程,探討了平時沒有關注到的一些技術要點。二進制序列化結果並不 ...

Tue Jul 02 07:33:00 CST 2019 17 6105
記一次生產事故:30萬單就這樣沒了!

背景 你好,我是彤哥。 昨天晚上下班回家,在地鐵上,老大突然打來電話,B系統生產環境響應緩慢,影響了A系統的使用,幾萬小哥收不了單,大概有30萬單卡住了,你去幫忙定位一下。 我8半左右到家,立馬上線入會。 重啟 我入會的時候,已經有同事在幫忙定位了,俗話說的好,重啟能解決80%的問題 ...

Thu Sep 24 19:59:00 CST 2020 25 4139
驚魂36小時,一次生產事故,動態磁盤刪除卷分區丟失,數據恢復案例實戰

全是干貨和實戰,不上首頁天理不容 一、事故來源 9月3日,在阿里雲服務器上進行了50g的磁盤擴容,然后對磁盤2新擴容的50G進行了操作擴展卷,發現E盤變成了141G,不對啊,我想給F盤擴容的,然后就做了一個讓我后悔的操作,對着那個小方塊點了一下刪除卷,彈出的確定框本能的就點擊了確定 ...

Sat Sep 05 04:40:00 CST 2020 15 2794
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM