應用性能監控-web系統


1 系統規划

參考https://mp.weixin.qq.com/s/UlnHOaN0xaA0jfg5CEmLRA

1.1 數據采集的原則:

數據采集,說起來比較簡單,只要把數據報上來就行,具體怎么采集,那就八仙過海各顯神通了。但是我們作為平台的設計者,必須要考慮標准化與規范化。

標准化,即抽象出統一的數據模型,用以支持各種自定義的采集數據。

 

我們采集端口、進程、日志、流量的各方面數據的方式,這個做好標准之后,監控的數據就會很規范。我們在一個業務線所做的穩定性建設方案,就可以無縫地遷移到另一個業務線,無需重復造輪子,而且是摸索很久之后的最佳實踐。

 

1.2 存儲建設的關鍵點

功能

從功能上來講,數據的存儲比較簡單,只要能存取時間序列數據即可,這一點,業界所有的時序數據庫都可以做到。

高端的繪圖能力和強大的告警能力,大都會依賴動態的tag關聯補全。

InfluxDB是帶有tag索引的時序數據庫。

性能

一是數據的讀寫性能,尤其是並發讀寫時的性能,在建設之出,要做好壓測和QPS的容量規划。

二是監控的時序數據必須要做好降采樣,也就是數據的定時歸檔。將過去一段時間的N個點,聚合成一個粗時間粒度的點。這里要注意,千萬不要做定時任務,InfluxDB的定時降采樣會帶來非常大的CPU高峰,對於要應對高並發查詢和寫入的監控存儲來說,這種性能的潮汐是非常危險的。

容量

無論什么樣的存儲,無論效率和壓縮比有多高,總是會滿的。這種時候,擴展就變成了一個繞不過去的命題。

關於容量方面,要強調的是,必須要有分布式的架構,可以隨時擴容。

1.3 繪圖功能的考量

與服務樹系統打通

現有一套用於操作啟停等操作的服務資源管理數,可以通過這個樹(列表),快速獲取監控圖。

數據橫向的比較

 

在一張監控圖中,同時顯示當前與一段時間的環比,是一種發現問題的非常好的手段。

如上圖,綠線代表今天的數據情況,藍線代表一天前,紅線代表7天前,通過對趨勢的比較,可以很容易把握住服務的狀態,哪里出問題一目了然。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM