封神-核心功能 | 釘釘告警+數據網關


簡介: 封神-核心功能 | 釘釘告警+數據網關

 

0.png

 

1. 開發背景

1.1 用戶痛點

①租戶側運維能力弱
問題:租戶側,客戶沒有有效途徑,及時地獲取實例級的狀態、性能、容量的數據。
現狀:每日固定時間,駐場需要人肉收集數據,釘釘定時推送給客戶。
②問題排查效率低
問題:應用業務有問題,雲平台產品正常,客戶並不認可,需要幫助客戶解決問題。
現狀:發現應用實例出現性能、容量被打滿的問題,這個排查過程往往冗長, 效率很低。
③監控能力缺失
問題:雲平台監控不全,容量管理、性能管理等報表能力缺失。
現狀:駐場需要通過大量人肉巡檢,或者編寫腳本。
④監控 方式時效性低
問題:業務側總會優先於應用與雲平台感知到故障,運維非常被動 。
現狀:客戶發現問題,通知應用,應用檢查后,再溯源到雲平台,排查鏈路串行並且低效。

1.2 解決方案

①保障業務穩定
通過雲產品的服務能力的變化情況及業務仿真模型的建立,提前預知客戶業務健康度,低於基線后便會觸發告警。
②SLA化展示
觸發閾值自動報警,量化產品健康狀況。

2. 開發設計

2.1 系統架構

 

1.jpg
圖1:系統架構圖

 

封神系統架構如圖1所示,分為CLIENT與SERVER端兩大模塊。

  • CLINET端:部署在經典網銅雀容器內,通過定時任務控制去采集雲內各產品數據。
  • SERVER端:部署在VPC內ECS上,系統框架為FLASK,分為數據處理與數據存儲兩大部分。

    ①數據處理是指通過提供API接受CLIENT的數據並進行入庫操作以及數據的前端展示。
    ②數據存儲是指借助阿里雲RDS數據庫,對數據進行持久化操作作。

2.2 業務架構

 

2.png
圖2:業務架構圖

 

封神業務架構如如2所示,分為五大板塊。

  • 姜子牙:租戶側告警,主要包括ECS、RDS等雲產品實例性能以及業務相關告警。
  • 申公豹:運維側告警,主要包括雲產品健康狀態、水位容量等相關告警。
  • 雷震子:硬件告警,主要包括壞盤,物理機帶外等告警。
  • 比 干:安全告警,主要來自雲盾相關安全類告警。
  • 楊 戩:故障告警,主要對各產品數據進行SLA算法處理,設置P0,P1等級故障閾值。

3. 釘釘告警

3.1 告警分類

機器人創建方式可參考文后資料[1]了解詳情。

姜子牙

 

姜子牙.png

 

申公豹

 

申公豹.png

 

雷震子

 

雷震子.png

 

比 干

 

比干.png

 

楊 戩

 

楊戩.png

 

3.2 告警展示

 

3.jpg
圖3:姜子牙

 

 

4.jpg
圖4:申公豹

 

 

5.jpg
圖5:雷震子

 

 

6.jpg
圖6:比干

 

 

7.jpg
圖7:楊戩-1
7-2.jpg
圖7:楊戩-2
7-3.jpg
圖7:楊戩-3
7-4.jpg
圖7:楊戩-4

 

4. 數據網關

數據網關分為兩大模塊:獲取數據、接收數據。

  • 獲取數據分為告警數據、全量數據、性能數據。

    ①告警數據:分別對應釘釘機器人推送的告警信息,封裝成相應的數據格式,以API接口形式對外提供數據。
    ②全量數據:數據庫源表數據,不做任何加工處理,以API接口形式對外提供數據,可操作性較高。
    ③性能數據:產品性能數據會定期存儲到時序數據庫,存儲時間長,可查詢歷史性能數據。

  • 接收數據:提供對外API接收客戶自定義監控數據,封裝成MARKDOWN格式,實時進行釘釘告警。

4.1 獲取數據

4.1.1 告警數據
4.1.1.1 請求接口

請求方式:POST請求
URL地址: http://{ip}:{port}/api/v1/search/monitor
ip:封神ecs_ip
port:9170
PARAM:參數列表可查看文后資料[2]了解詳情。

 

FDFAE04A-E7F5-486f-80FF-157DF015BB04.png

 

4.1.1.2 DEMO
import sys import requests url = "http://{ip}:{port}/api/v1/search/monitor/" data = {"product":"MQ", "title":"積壓告警", "stime":"2020-01-04 00:00:00", "etime":"2020-01-04 00:01:00"} res = requests.post(url=url, json=data) print res.content
curl -H "Content-Type:application/json" -X POST -d '{"type":"ALL"}' http://{ip}:{port}/api/v1/search/monitor/
4.1.1.3 數據返回

 

2D73B472-DCD0-49ec-A2F5-C704FBAA5EE1.png

 

①當前存在告警
{"code":0, "data":[{"info":"0.0.0.0,ecs,95% \n 0.0.0.1,ecs,95% ", "product":"ECS", "title":"性能告警", "level":"告警", "robot":"姜子牙", "monitor_time":"2020-01-14 00:00:00", "columns":"IP,產品,值"}]}
②當前未存在告警數據(告警恢復正常)
{"code":0, "data":[{"info":"", "product":"ECS", "title":"性能告警", "level":"告警", "robot":"姜子牙", "monitor_time":"2020-01-14 00:00:00", "columns":"IP,產品,值"}]}
③未查詢到數據:
{"code":0, "data":[]}
④查詢異常:
{"code":500, "data":"異常信息"}

4.1.2 全量數據
4.1.2.1 請求接口

請求方式:POST請求
URL地址: http://{ip}:{port}/api/v1/search/data/
ip:封神ecs_ip
port:9170
PARAM:參數列表可查看文后資料[2]了解詳情。

 

3320A3E9-D21D-4607-909F-9417EAC3EF05.png

 

4.1.2.2 DEMO
import sys import requests url = "http://{ip}:{port}/api/v1/search/data/" data = {"product":"MQ", "title":"TIME", "stime":"2020-01-04 00:00:00", "etime":"2020-01-04 00:01:00"} res = requests.post(url=url, json=data) print res.content
4.1.2.3 數據返回

 

04CC8D1A-F631-49c7-B984-F9004B6BD6BE.png

 

4.1.3 性能數據
4.1.3.1 請求接口

請求方式:POST請求
URL地址: http://{ip}:{port}/api/v1/influxdb_query/
ip:封神ecs_ip
port:9170
PARAM:參數為INFLUXDB SQL

 

68A2A74A-E348-4e6f-B369-F680C7A22C46.png

 

4.1.3.2 DEMO
import sys import requests url = "http://{ip}:{port}/api/v1/influxdb_query/" data = {"sql":"infudb sql"} res = requests.post(url, data) print res.content
4.1.3.3 數據返回

 

04CC8D1A-F631-49c7-B984-F9004B6BD6BE.png

 

4.2 接收數據

4.2.1 請求接口

請求方式:POST請求
URL地址:http://{ip}:{port}/api/v1/insert/third
ip:封神ecs_ip
port:9170
PARAM:

 

D0563272-CFDE-4776-AC6D-94D1B29070D7.png

 

4.2.2 DEMO
import sys import requests url = "http://172.0.0.1:9170/api/v1/insert/third/" data = {"title":"ecs性能監控", "level":"預警", "source":"雲監控", "product":"ecs", "msg":"ip:10.0.0.1 cpu:98% ip:127.0.0.1 mem:99%", "robot":"姜子牙", "submitor":"高德臣", "monitor_time":"2021-03-10 16:00:00", "details":"兄弟 關注下"} res = requests.post(url=url, json=data) print res.text
4.2.3 告警展示

 

8.jpg
圖8:告警展示圖

 

參考文章

[1] 封神榜部署前置檢查:https://yuque.antfin-inc.com/docs/share/d3a743db-af85-47d2-89c5-4f22eb1693c5?
[2] 獲取封神數據-三方API:https://yuque.antfin-inc.com/docs/share/2037fbb2-35fa-42ad-8476-ec7502e9ed33?#

原文鏈接
本文為阿里雲原創內容,未經允許不得轉載。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM