如果是自己寫的代碼,加上又熟悉業務場景,很容易就知道性能瓶頸點。但如果上來就去優化別人的代碼,甚至是其他產品線的代碼,還是有一些挑戰的。最近就在做這事,接手了優化公司一個業務引擎接口的任務,在這兒對優化方法做一些總結。
優化接口總共分兩步,一是找到性能熱點,二是解決熱點。在不熟悉代碼的情況下,找熱點是最難的,找到后對症下葯就容易多了。先主要說一下如何找性能熱點。
一、查調用鏈。
微服務下,調用鏈追蹤能很容易的定位到是鏈路上的哪個環節出現問題。從而確定是別人接口把你的拖慢了,還是自己接口內代碼有問題;且調用鏈反映的是線上真實數據,比跑線下測試數據更有說服力。
調用鏈基礎是調用前后記錄的日志。
這里以A->B->C舉例,簡單說一下調用鏈常用的幾個參數:
- TraceID:一個完整鏈路的唯一ID。本例中,TraceID是在A、B、C中傳遞的,ABC中記錄的鏈路日志都用這個唯一的TraceID,不會變。
- BindingID:一個線程內的ID。本例中,A記錄的鏈路日志中,有唯一的BindingIDA,同樣B、C中各有BindingIDB、BindingIDC
注意:BClient記日志的BindingID 跟 CServer記Log的BindingID不一樣
- ConversationID:一個會話的ID。本例中,A調用B,A生成一個ConversationID,傳給B,B在返回結果前,記下日志,A在收到結果后記下日志。這兩條日志有唯一的ConversationID。
- VirtualPath:用於標識微服務路徑
- Component:用於標識組件,或者微服務名稱
- CostInMilsecond:記錄一次會話耗時。Client端發起前開始計時,收到后記入日志、Server端返回前記入日志。
明白這幾個參數后,再看看具體使用。我們公司是用Kibana作為查詢統計工具的。那么,我的分析步驟有如下幾步:
1. 確定該請求的最長耗時(用於重點優化)、耗時中位數(用於全面優化):
需要用到Kibana的Visualize功能,指定一個Metric為中位數、一個Metric為Max,再按照服務路徑聚合即可
2. 拿到指定耗時時間附近的多個請求的BindingID
3. 統計其子鏈路耗時:
用Visualize可以統計出平均每個線程中,每個子鏈路的被調用次數、總耗時。然后看看在主鏈路耗時的占比情況。如果占比比較大,說明鏈路有問題了。比如我最近優化的幾個接口,在鏈路上能看到數據庫存儲過程執行次數多且慢,那么肯定可以定位是數據訪問的問題。
如果占比不多,那就要繼續分析方法內部了。
二、本地分析
1. 使用Dottrace
方法內部的分析,最主要的是采用合理的參數來驅動被測方法。這里我會選最耗時的參數來覆蓋被測方法的大多數分支,並且充分暴露問題。
還要注意一點的是,在正式采樣前,先對程序預熱一下,也就是跑一次被測方法,讓該緩存的緩存下來。這樣更能反映線上一般情況。
2. 結果解讀
dottrace可以說是異常的強大了。給你列出了某個方法的被調用次數、耗時、Collection操作耗時、系統函數耗時、用戶函數耗時。基本上看這個圖就知道熱點在什么地方了。
三、優化方法總結
熱點找到了,后面就是對症下葯的優化了。總結一下優化方法也就是:
1. 循環體內的IO、遠程調用,改為循環外去重后批量執行,避免重復發起調用
2. 數據庫慢查詢,優化SQL、索引
3. 基礎的、頻繁查詢的方法,可以把執行結果放到緩存
4. 串行的遠程調用可以改為並行。(慎用,請求高峰期會造成內存暴漲,同時也可能導致上下文丟失)
5. 非主流程的方法,比如發消息通知、增刪會員積分,改為發消息到隊列然后異步消費。
......
先寫到這兒吧。。公司要求嚴、打馬好辛苦