MySql單表最大8000W+ 之數據庫遇瓶頸記


前言

昨晚救火到兩三點,早上七點多醒來,朦朧中醒來發現電腦還開着,趕緊爬起來看昨晚執行的SQL命令結果。由於昨晚升級了阿里雲的RDS,等了將近兩個小時 還在 升降級中,早上阿里雲那邊回復升級過程中出現異常,正在加緊處理。。。有點蛋疼

 

項目介紹

這個項目主要分為WEB、WEB-Manager、WEB-API、APP(ANDROID、IOS) 。

開發語言主要是ASP.NET 

數據庫MySql

架構采用了ASP.NET +EF+ORM   Unity依賴注入 采用了DDD的部分實踐 

ORM使用的是AutoMapper

使用了Redis緩存

Log4net記錄文件日志,剛開始使用Mongodb記錄日志,用了一段時候后取消了。

WEB端使用了angularjs    

API層通過JSON數據與APP進行交互,用戶狀態通過access_token進行傳遞

數據庫層目前是基於倉儲(Repositor)模式實現的

剛開始項目急於上線多數采用Linq +lambda 的查詢方式,在實踐過程中發現變態的業務調整和快速的請求響應,將其復雜的查詢改成了原生SQL,通過Context.DataBase.SqlQuery  執行

 

其他的技術就不一一介紹了

目前訪問量較大的是APP端, 最大並發 1300+

主要是API的壓力比較大,日均 100W+ 請求,API 目前 部署在Windwos server 2012上,  接口在50個以上

數據庫使用的是阿里雲的單機MySql  RDS 5.6 版本,10盒12G,連接數2000,iops 6000  

目前 單表最大是8000W+數據。物理文件300G,APIlog日均100W+,API與業務系統完全獨立,除了DBLog日志還有Log4g.net生成的文件日志。

目前采用的是阿里雲的負載,一主一從  購買的阿里雲負載      兩台應用均為 8盒16G ,10M帶寬 ,資源文件上了CDN。

主的上面部署了WEB端和WEB管理后台,從的上面只有API。

數據庫遇瓶頸

        最近用戶量突破10+以上,最大並發1300+  從前天晚上開始數據庫CPU居高不下,一時達到100%臨界點,導致很多SQL命令執行發生錯誤,鏈接拒絕。阿里雲的報警短信也隨之而來,隨即我停掉了IIS應用,因為不停止應用MySql數據庫很難復蘇,大概過了5分鍾之后數據庫恢復正常,然后再開啟IIS應用。蛋疼的是阿里雲的負載健康檢查也提示異常,但有點不解的是健康狀態顯示異常,請求仍然在繼續分發,很是不解。立馬我將IIS 應用程序池資源回收,停止然后再重啟,這里給個提示  重啟IIS應用程序池的時候最好先停止掉IIS應用,然后再重啟IIS應用程序池,不然訪問量大的情況下很難起起來。過了幾分鍾之后負載上的健康檢查顯示正常。

       上阿里雲后來看了下各個監控指標,顯示流量從前一個小時開始 突然猛增,我以為是有攻擊,但跟蹤了幾個連接發現是正常請求,但360的防御助手顯示確實有幾個攻擊,但那幾個請求根本不足以拉跨數據庫,大概也就幾十個請求,   幾個簡單的  XSS攻擊 這里貼下:攻擊的數量不是太多,但主要攻擊的內容和參數就這個幾種類型

url/'%22/%3E%3C/script%3E%3Cscript%3Ealert()%3C/script%3E
url/'%22+onmouseover=alert()+d='%22

url/matrix_callback.php    

url/index.php?option=com_fields&view=fields&layout=modal&list%5Bfullordering%5D=updatexml(0x3a,concat(1,md5(233)),1)

后來發現是數據庫遇到危機了,CPU幾度達到了100%,活躍連接數和非活躍連接數都比平時都要高很多。目前數據庫中有一張最大的表超8000W條數據,超300W以上的也有十幾張,是查詢拖垮了數據庫,平時開發的時候我們都是要求查詢類的SQL要求0.03秒之內完成。但涉及到這幾張大表的查詢我們設定到0.5秒之內返回。今天肯定是查過0.5秒了,

我查了下阿里雲控制台的慢SQL日志,眼下系統運行還稍微正常,就拿那些慢SQL 一個一個的優化,不能立馬發版,也就是不能改寫SQL代碼,只能從索引上進行優化了。就這樣把慢SQL逐一過了一遍,大約有20多個  超2秒執行的,最慢的達到了10秒,最大的解析行數達到了10W行以上,哎 應該是下面的兄弟寫sql不嚴謹,否則不會出現解析行數超10W+的,但兄弟挖的坑 我哭着也要去填。就這樣用explain 調整索引的方式逐一過了一遍,之前通過表空間已經做過一次優化了。

到昨晚又到了高並發的時候,數據庫又報警了,還好只是報警沒有給我crash掉。與客戶那邊溝通下來,決定進行數據庫擴容。現在擴容到了16盒64G 連接數14000 iops16000。

增加了一個應用幾點,現在是一主兩從

應該能撐一段時間了

 

接下來需要着手上讀寫分離, 針對比較大的表進行拆分,代碼和數據庫繼續優化。盡量做到最優。

再下來着手上分布式   因為架構的演變是根據市場營銷情況而定,不能走太前更不能走到市場的后面

周末比較累 寫的比較簡短,有時間再續

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2026 CODEPRJ.COM