「前任的50種死法」開發踩坑案例--慢就是錯

本文轉載自查看原文 2019-04-09 10:35 1046 案例分析

背景

《50 ways to say goodbye》中文名《前任的50種死法》是我之前報的英語班里外教老師放給我們聽的歌。老外說很困惑為什么我們還在聽《Take me home,Country Road》這種老掉牙的歌。

《前任的50種死法》里因為生女友的氣幻想她的各種死法：飛機墜機、曬日光浴被曬死、被獅子吃掉、泡澡被淹死……

等等，聽着咋就這么像做項目：看起來根本就不可能的原因，結果服務被整死了。本系列文章匯總了50個項目中“下水被鯊魚吃掉”這樣的離奇的服務出錯分析。

案例分析-超時導致接口報500錯誤

引發問題

我做的heimdal和carter這兩個產品一期上線，heimdal是k8s的事件監聽服務。在設計為了驗證是否有事件丟失、對事件的處理是否正確等正確性驗證，carter作為heimdal的事件處理，並對外直接暴露接口提供服務。一期使用了mysql做存儲。因為mysql非常成熟，不會干擾對結果的驗證。

但實際上因為涉及各種過濾式的查詢。用sql來查詢的時候，這么來說吧，如果直接寫sql語句要嵌套幾十個in的子查詢。在代碼編寫的時候為了適應各種情況，分查詢語句的，就是說要建立多次連接。

來看上面的數據，resource這個接口TP90已經超過2秒了。上游調用在服務治理框架OCTO中顯示上游因為設置了超時時間為2秒，結果有0.4%的請求都調用失敗了。因為在核心鏈路里有10次重試，而且如果10次重試還是獲取不到結果，會在請求層失敗。調用方看到這個錯誤會再次發起請求，實際上是可以得到正確結果的。但是上游會有監控報警，觸發了報警，上游同學就來找我了。

我記得第一次處理這個問題是晚上11點多在地鐵上。用手機連vpn處理的。怎么應急處理這種事情呢？就是將堵塞的mysql慢查詢kill掉。

問題解決初版

綜合考慮已有問題的影響：實際上對業務沒有影響。所以決定先按照原有的計划先完成標簽管理系統hydra。用hydra的標簽過濾來代替幾十個in的子查詢。這個方法可以徹底解決對mysql的壓力。

hydra采用ElasticSearch做底層存儲，將原有的sql查詢轉化為ES查詢。並且因為標簽的修改頻率低，延時不敏感。我在編寫客戶端引用包的時候做了客戶端本地緩存處理。緩存最近30條查詢條件，每100ms取拉取最新條件對應的結果。所以條件命中的情況下，10ms完全可以返回結果。下面是端到端(最上游調用方的耗時，中間有很多網絡傳輸)的響應耗時數據：