Java生鮮電商平台-SpringCloud分布式請求跟蹤系統設計與實踐

本文轉載自查看原文 2019-10-28 12:29 389

Java生鮮電商平台-SpringCloud分布式請求跟蹤系統設計與實踐

Java生鮮電商平台微服務現狀

基於日志的分布式請求跟蹤系統
- 業務侵入小
- 將每個系統分散的日志聚合起來，並進行海量數據日志分析。
核心---調用鏈
- 每次請求生成一個全局唯一id，通過它將不同系統生成的日志串在一起，重組成調用鏈，使其價值達 1+1》2的效果。
- 開發人員通過分布式請求跟蹤鏈排查問題
- 對多個請求進行統計和分析。

設計目標

一次請求調用過程的展示，以圖形化方式梳理各個為服務端集群之間的調用關系，並記錄整個調用過程的耗時，協助開發人員分析整個系統的瓶頸點與熱點，從而優化系統。

一次調用的耗時

多次調用

訪問量與耗時情況

對多條調用鏈進行分析，整理出集群之間的調用關系，計算出整個調用鏈路的關鍵節點、直接依賴、間接依賴強度等等

針對某一特定集群，整理出其他集群對其調用情況，防止錯誤調用情況的發生。

image

實時統計各個計算的調用次數、QPS、平均耗時、最大耗時等信息，開發人員可以根據相關信息進行容量規划。

開發人員通過自定義正則表達式，對匹配該規則的URL進行實時監控，包括調用次數等等。。。。。。

埋點和生成日志
- java探針-javaagent技術，通過本地socket將收集到的數據實時發送給本機上的日志收集節點agent，將本機上的多個java探針的日志數據發送到日志收集服務器集群。
收集和存儲日志
- 日志收集服務器集群對數據進行格式化處理之后，分成三個工作流進行后續處理
匯總和重組調用鏈
分析和統計調用鏈
- 原始數據直接存入到ES集群中，用於頁面實時調用鏈的展示
- 原始數據存入到本地的日志中，通過Flume上傳到HDFS急群眾，利用Hadoop集群定時的進行離線分析，分析后的結果存入到ES集群中，用於頁面數據分析的展示。
- 原始數據發送到Spark/Flink在線分析集群，進行QPS、平均耗時等實時數據統計，分別將計算結果保存到Redis集群和ES集群中，用於頁面實時數據統計的展示。