可觀測告警運維系統調研——SLS告警與多款方案對比


簡介: 本文介紹對比多款告警監控運維平台方案,覆蓋阿里雲SLS、Azure、AWS、自建系統(ELK、Prometheus、TICK)等方案。

前言

本篇是SLS新版告警系列宣傳與培訓的第三篇,后續我們會推出20+系列直播與實戰培訓視頻,敬請關注。

 

系列目錄(持續更新)

 

1. 什么是SLS告警運維系統

1.1. SLS(日志服務)是什么

SLS是阿里雲上雲原生觀測分析平台,為Log/Metric/Trace等數據提供大規模、低成本、實時平台化服務。目前對內已經是“阿里巴巴 + 螞蟻金服”系統的數據總線,數年穩定支撐雙十一、雙十二、新春紅包活動。對外則已經服務阿里雲幾十萬企業客戶。

image.png

 

1.2. SLS新版告警——一站式智能告警運維系統

SLS新版告警在中國站等發布公測(國際站預計4月發布),新版在SLS雲原生可觀測性平台上提供了一站式智能運維告警系統。新版告警提供對日志、時序等各類數據的告警監控,亦可接受三方告警,對告警進行降噪、事件管理、通知管理等,新增40+功能場景,充分考慮研發、運維、安全以及運營人員的告警監控運維需求。

image.png

 

 

1.3. 優勢

使用SLS新版告警,可以有效緩解典型告警運維系統的痛點,和其他自建、商業化或雲廠商提供的方案比,具備如下5大優勢:

image.png

 

2. 與自建方案對比

2.1. 與ELK X-Pack 告警 (Watcher/KibanaAlert)對比

2.1.1. 簡介

自建方案ELK表示使用開源方案ElasticSearch + Logstash + Kibana組合,但是其不包括告警功能,需要額外購買X-Pack商業包,會擁有2個告警功能,一個是ElasticSearch附帶的Watcher,一個是Kibana 7.x+新增的Alert功能,注意:這兩個告警功能互相獨立,並不能協同和關聯。

 

2.1.2. 評估對比

image.png

2.2. 與Prometheus  & Loki(含AlertManager)告警對比

2.2.1. 簡介

自建方案Prometheus&Loki表示使用開源方案Prometheus + Loki + AlertManager組合,其中Prometheus Alert針對時序進行告警監控,Loki針對日志進行告警監控,兩者共同將告警發送給Alert Manager進行告警管理

 

2.2.2. 評估對比

image.png

 

2.3. 與InfluxDB 2.0 告警(含Kapacitor) 告警對比

2.3.1. 簡介

自建方案InfluxDB表示使用開源方案InfluxDB OSS 2.0 + kapacitor組合搭建告警監控系統,如果需要集群部署功能,還需要購買InfluxDB商業版本。注意,該方案只能支持針對時序數據的告警監控。

 

2.3.2. 評估對比

image.png

 

3. 與其他雲廠商方案對比

3.1. 與AWSCloudWatch 告警 +SNS+SSM對比

3.1.1. 簡介

AWS告警監控方案,需要依賴AWS CloudWatch告警加上多個其他AWS服務達到告警監控和管理的能力。一般使用CloudWatch Alarm + SNS + System Manager OpsCenter組合的方式完成對日志、時序的監控管理。CloudWatch Logs支持日志的采集,但實際監控告警時,需要先轉換成時序才行。

 

3.1.2. 評估對比

image.png

3.2. 與AzureMonitor 告警對比

3.2.1. 簡介

Azure Monitor支持完整的基於時序與日志的監控,並很好集成了上下游方案提供完整的告警監控與告警管理通知功能。

 

3.2.2. 評估對比

image.png

 

4. 進一步參考

4.1. 各方參考

 

  • ELK:

 

  • Prometheus & Lock:

 

  • InfluxDB:

 

  • AWS:

 

  • Azure:

 原文鏈接

本文為阿里雲原創內容,未經允許不得轉載。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM