利用 Prometheus 監控測試服務器集群實踐詳解（精心講解）

本文轉載自查看原文 2020-05-24 14:58 1111 自動化測試/ 軟件測試開發/ 性能測試/ 軟件測試/ 測試開發

公司有幾台測試服務器（由於測試服務器本來性能和線上機器硬件就不一樣，所以讓運維老師去掉了測試服務器報警），測試團隊自己使用 Prometheus 監控幾台測試服務器，當出現故障的時候，把報警數據直接發送到企業微信中。

Prometheus 特點介紹

Prometheus 基本原理是通過 HTTP 協議周期性抓取被監控組件的狀態，這樣做的好處是任意組件只要提供 HTTP 接口就可以接入監控系統，不需要任何斯達克學院測試或者其他的集成過程。這樣做非常適合虛擬化環境比如 VM 或者 Docker 。

Prometheus 應該是為數不多的適合 Docker、Mesos、Kubernetes 環境的監控系統之一。

輸出被監控組件信息的 HTTP 接口被叫做 exporter 。目前互聯網公司常用的組件大部分都有 exporter 可以直接使用，比如 Varnish、Haproxy、Nginx、MySQL、Linux 系統信息 (包括磁盤、內存、CPU、網絡等等)，具體支持的源看：https://github.com/prometheus。

與其他監控系統相比，Prometheus 的主要特點是：

一個多維數據模型（時間序列由指標名稱定義和設置鍵 / 值尺寸）。
非常高效的存儲，平均一個采樣數據占~3.5bytes 左右，320 萬的時間序列，每 30 秒采樣，保持 60 天，消耗磁盤大概 228G。
一種靈活的查詢語言。
不依賴分布式存儲，單個服務器節點。
時間集合通過 HTTP 上的 PULL 模型進行。
通過中間網關支持推送時間。
通過服務發現或靜態配置發現目標。
多種模式的圖形和儀表板支持。

Prometheus 架構概覽

它的服務過程是這樣的 Prometheus daemon 負責定時去目標上抓取 metrics(指標) 數據，每個抓取目標需要暴露一個 HTTP 服務的接口給它定時抓取。

Prometheus

支持通過配置文件、文本文件、zookeeper、Consul、DNS SRV lookup 等方式指定抓取目標。支持很多方式的圖表可視化，例如十分精美的 Grafana，自帶的 Promdash，以及自身提供的模版引擎等等，還提供 HTTP API 的查詢方式，自定義所需要的輸出。

Alertmanager

Alertmanager 是獨立於 Prometheus 的一個組件，可以支持 Prometheus 的查詢語句，提供十分靈活的報警方式。

PushGateway：這個組件是支持 Client 主動推送 metrics 到 PushGateway，而 Prometheus 只是定時去 Gateway 上抓取數據。

如果有使用過 statsd 的用戶，則會覺得這十分相似，只是 statsd 是直接發送給服務器端，而 Prometheus 主要還是靠進程主動去抓取。

Prometheus 的數據模型

Prometheus 從根本上所有的存儲都是按時間序列去實現的，相同的 metrics(指標名稱) 和 label(一個或多個標簽) 組成一條時間序列，不同的 label 表示不同的時間序列。為了支持一些查詢，有時還會臨時產生一些時間序列存儲。

metrics name&label 指標名稱和標簽。

每條時間序列是由唯一的” 指標名稱” 和一組” 標簽（key=value）” 的形式組成。

指標名稱：一般是給監測對像起一名字，例如 httprequeststotal 這樣，它有一些命名規則，可以包字母數字 _ 之類的的。通常是以應用名稱開頭 _ 監測對像 _ 數值類型 _ 單位這樣。例如：pushtotal、userloginmysqldurationseconds、appmemoryusage_bytes。

標簽：就是對一條時間序列不同維度的識別了，例如一個 http 請求用的是 POST 還是 GET，它的 endpoint 是什么，這時候就要用標簽去標記了。最終形成的標識便是這樣了：httprequeststotal{method=”POST”,endpoint=”/api/tracks”}。

記住，針對 httprequeststotal 這個 metrics name 無論是增加標簽還是刪除標簽都會形成一條新的時間序列。

查詢語句就可以跟據上面標簽的組合來查詢聚合結果了。

如果以傳統數據庫的理解來看這條語句，則可以考慮 httprequeststotal 是表名，標簽是字段，而 timestamp 是主鍵，還有一個 float64 字段是值了。（Prometheus 里面所有值都是按 float64 存儲）。

prometheus 四種數據類型

Gauge

Gauge 常規數值，例如溫度變化、內存使用變化。可變大，可變小。重啟進程后，會被重置。例如：

memoryusagebytes{host=”master-01″} 100 < 抓取值、memoryusagebytes{host=”master-01″} 30、memoryusagebytes{host=”master-01″} 50、memoryusagebytes{host=”master-01″} 80 < 抓取值。

Histogram

Histogram（直方圖）可以理解為柱狀圖的意思，常用於跟蹤事件發生的規模，例如：請求耗時、響應大小。它特別之處是可以對記錄的內容進行分組，提供 count 和 sum 全部值的功能。

例如：{小於 10=5 次，小於 20=1 次，小於 30=2 次}，count=7 次，sum=7 次的求和值。

Summary

Summary 和 Histogram 十分相似，常用於跟蹤事件發生的規模，例如：請求耗時、響應大小。同樣提供 count 和 sum 全部值的功能。

例如：count=7 次，sum=7 次的值求值。

它提供一個 quantiles 的功能，可以按 % 比划分跟蹤的結果。例如：quantile 取值 0.95，表示取采樣值里面的 95% 數據。

依賴鏡像

部署 prometheus

配置

yml 內容

yml 中配置了一個 prometheus 自己和一台 linux 監控

啟動 prometheus

啟動的時候掛載了 prometheus.yml 文件

查看目標機器

如果出現 status 是 down 的情況說明沒有連接成功 , 需要檢查對應服務是否啟動成功及對應端口

出現下圖 , 說明配置成功。

查看采集 metrics

點擊下面這個接口 , 會跳轉到 metrics 頁面 , 通過輪訓的方式更新數據

部署 node-exporter

node-exporter 啟動后會在服務器上啟動一個進程采集數據 ,prometheus 會每隔幾秒通過接口獲取服務器的 metrics 數據 .

注意本地 mac 啟動不能加--net="host"

部署 Grafana

啟動 grafana

grafana 地址

登錄賬號密碼:admin/admin

grafana 配置

prometheus 配置

配置 prometheus 數據源

grafana 模版

導入 dashboards 模版

展示

配置多個機器監控 , 需要在每一台機器部署 node-exporter.

配置告警規則

報警規則配置

rules.yml 中配置監控服務的內存、cpu、磁盤告警策略

Server: '{{$labels.instance}}'
    summary: "{{$labels.instance}}: High Memory usage detected"
    explain: " 內存使用量超過 90%，目前剩余量為：{{ $value }}M"
    description: "{{$labels.instance}}: Memory usage is above 90% (current value is: {{ $value }})"

- alert: CPU 報警
  expr: (100 - (avg by (instance)(irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)) > 90
for: 2m
  labels:
    team: node
  annotations:
Alert_type: CPU 報警
Server: '{{$labels.instance}}'
    explain: "CPU 使用量超過 90%，目前剩余量為：{{ $value }}"
    summary: "{{$labels.instance}}: High CPU usage detected"
    description: "{{$labels.instance}}: CPU usage is above 90% (current value is: {{ $value }})"

- alert: 磁盤報警
  expr: 100.0 - 100 * ((node_filesystem_avail_bytes{mountpoint=~"/", device!="rootfs"} / 1000 / 1000 ) / (node_filesystem_size_bytes{mountpoint=~"/", device!="rootfs"} / 1024 / 1024)) > 90
for: 2m
  labels:
    team: node
  annotations:
Alert_type: 磁盤報警
Server: '{{$labels.instance}}'
    explain: " 磁盤使用量超過 90%，目前剩余量為：{{ $value }}G"
    summary: "{{$labels.instance}}: High Disk usage detected"
    description: "{{$labels.instance}}: Disk usage is above 90% (current value is: {{ $value }})"

- alert: 服務器下線告警
    expr: up == 0
for: 1m
    labels:
      user: admin
    annotations:
      summary: "Instance {{ $labels.instance }} down"
      description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 1 minutes."