一次mongo查詢不存在字段引發的事故


  話說今天的一個小小的查詢失誤給了我比較深刻的教訓,也讓我對mongo有了更深刻的理解,下面我們來說說這個事情的原委:

我們經常使用阿里雲子賬號在DMS上查詢線上數據庫數據,今天也是平常的一次操作

集合:

XXXX_message
數據量約 600萬

我執行了下面的mongo查詢:

db.XXXX_message.find({"channel_id": "1000000009XXXX700XXXX"}).limit(20);

但是上述語句中的 "channel_id" 字段不存在,真實字段應該是channel(有索引),屬於失誤操作

在執行過程中,我發現查詢時間很久,於是中斷了查詢又重試了兩次,還是很久,最后中斷了查詢,我意識到我想查的字段可能錯了,於是看了下集合索引,使用正確的字段檢索得到結果

但就在這時候,一場事故也在悄然醞釀,2分鍾后,阿里雲監控中心打來告警電話,mongo數據庫cpu、iops異常升高

 

 

起初並沒有意識到是這個查詢導致的,還以為是半小時前發布的版本可能有問題,於是立即回滾了版本並開始項目檢查

查了許久,並沒有查到可能造成本次數據庫異常告警的原因,項目對該庫的依賴的操作的地方非常少。

當我們苦苦想不到原因的時候,我們去查了下相關慢sql日志,果然一道耗時約1800000ms的慢sql日志引起了我們的注意

這時候我似乎意識到了點什么,我立馬查阿里雲控制台查詢歷史核對了我剛才查詢的時間和數據庫cpu、磁盤iops異常升高的時間節點

完全對上了,該起事故持續半小時左右,那條沒有被成功中斷的sql也執行了半小時左右

 

 

這讓我很震驚,一次控制台查詢居然導致整個數據庫出現如此嚴重的問題,mongo底層沒有考慮過不存在字段查詢問題嗎?

我慢慢平復心情,仔細回顧這件事情,我嘗試着從mongo和mysql的底層去理解這個問題

mongo本身是集合型數據庫,意味着每個集合文檔都可以有自己獨立的數據結構,和mysql等關系型數據庫的很重要的區別就是它沒有固定的表結構,它包容且隨性

當在查詢一個不存在的字段的時候,它仍然按照普通查詢檢索數據,這時候它會全表掃描,也就是說在上述失誤語句中,mongo底層檢索了整個集合的數據集,

遍歷了該集合所有的磁盤塊,這才導致磁盤iops升高且cpu升高。

這次經歷讓我覺得我有必要記錄下相關心得,可能對於很多高級技術人員,這些東西都是很容易理解和規避的事情,但大多數人對此可能並沒有深刻認識

這次事故讓我對技術多了一層敬畏,這有助於我在今后的代碼實踐和操作中更加謹慎和多一層思考,希望大家以此為戒!

此文共勉!

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM