原文 https://blog.csdn.net/cojn52/article/details/105766464
Prometheus 是一個非常優秀的監控工具。准確的說,應該是監控方案。Prometheus 提供了監控數據搜集、存儲、處理、可視化和告警一套完整的解決方案。
一 、PROMETHEUS架構
Prometheus 重要組件的架構如下:
官網上的原始架構圖比上面這張要復雜一些,只保留了最重要的組件。
Prometheus Server
負責從Exporter拉取和存儲監控數據,並提供一套靈活的查詢語言(PromQL)工用戶使用
Exporter
負責收集目標對象(host、container)的性能數據,並通過HTTP接口供 Prometheus Server 獲取
可視化組件
監控數據的可視化展示對於監控方案至關重要。以前Prometheus自己開發了一套工具,不夠后來放棄了,因為開源社區出現了更為優秀的產品 Grafana。Grafana能夠與 Prometheus無縫集成,提供完美的數據展示能力。
Alertmanager
用戶可以定義基於監控數據的告警規則,規則會觸發告警。一旦Alertmanager收到告警,會通過預定義的方式發出告警通知。支持的方式包括 email、PagerDuty、Webhook等
Prometheus 與 其他監控工具(zabbix、graphite、nagios等)相比,最大的亮點和先進性是他的多維數據模型。
二 、PROMETHEUS的優勢特點
比如要監控容器 webapp1 的內存使用情況,最傳統和典型的方法是定義一個指標 container_memory_usage_bytes_webapp1 來記錄 webapp1 的內存使用數據。假如每1分鍾取一次樣,那么在數據庫里就會有類似下面的記錄。
好,現在需求發生了點變化,我們需要知道所有 webapp 容器的內存使用情況。如果還是采用前面的方法,就不得不增加新的指標 container_memory_usage_bytes_webapp2、container_memory_usage_bytes_webapp3…
像 Graphite 這類更高級的監控方案采用了更為優雅的層次化數據模型。為了滿足上面的需求,Graphite 會定義指標 container.memory_usage_bytes.webapp1、container.memory_usage_bytes.webapp2、container.memory_usage_bytes.webapp3…
然后就可以用 container.memory_usage_bytes.webapp* 獲取所有的 webapp 的內存使用數據。
此外,Graphite 還支持 sum() 等函數對指標進行計算和處理,比如 sum(container.memory_usage_bytes.webapp*) 可以得到所有 webapp 容器占用的總內存量。
目前為止問題處理得都很好。但客戶總是會提出更多的需求:現在不僅要按容器名字統計內存使用量,還要按鏡像來統計;或者想對比一下某一組容器在生產環境和測試環境中對內存使用的不同情況。
當然你可以說:只要定義更多的指標就能滿足這些需求。比如 container.memory_usage_bytes.image1.webapp1、container.memory_usage_bytes.webapp1.prod等。
但問題在於我們沒辦法提前預知客戶要用這些數據回答怎樣的問題,所以我們沒辦法提前定義好所有的指標。
下面來看看 Prometheus 的解決方案。
Prometheus 只需要定義一個全局的指標 container_memory_usage_bytes,然后通過添加不同的維度數據來滿足不同的業務需求。
比如對於前面 webapp1 的三條取樣數據,轉換成 Prometheus 多維數據將變成:
后面三列 container_name、image、env 就是數據的三個維度。想象一下,如果不同 env(prod、test、dev),不同 image(mycom/webapp:1.2、mycom/webapp:1.3)的容器,它們的內存使用數據中標注了這三個維度信息,那么將能滿足很多業務需求,比如:
計算 webapp2 的平均內存使用情況:avg(container_memory_usage_bytes{container_name=“webapp2”})
計算運行 mycom/webapp:1.3 鏡像的所有容器內存使用總量:sum(container_memory_usage_bytes{image=“mycom/webapp:1.3”})
統計不同運行環境中 webapp 容器內存使用總量:sum(container_memory_usage_bytes{container_name=~“webapp”}) by (env)
這里只列了幾個例子,不過已經能夠說明 Prometheus 數據模型的優勢了:
通過維度對數據進行說明,附加更多的業務信息,進而滿足不同業務的需求。同時維度是可以動態添加的,比如再給數據加上一個 user 維度,就可以按用戶來統計容器內存使用量了。
Prometheus 豐富的查詢語言能夠靈活、充分地挖掘數據的價值。前面示例中的 avg、sum、by 只是查詢語言中很小的一部分功能,已經為我們展現了 Prometheus 對多維數據進行分片、聚合的強大能力。
安裝部署
Docker Host:192.168.56.102 和 192.168.56.103,監控 host 和容器兩個層次的數據。
按照架構圖,我們需要運行如下組件:
Prometheus Server
Prometheus Server 本身也將以容器的方式運行在 host 192.168.56.103 上。
Exporter
Prometheus 有很多現成的 Exporter,完整列表請參考 https://prometheus.io/docs/instrumenting/exporters/
我們將使用:
Node Exporter,負責收集 host 硬件和操作系統數據。它將以容器方式運行在所有 host 上。
cAdvisor,負責收集容器數據。它將以容器方式運行在所有 host 上。
Grafana
顯示多維數據,Grafana 本身也將以容器方式運行在 host 192.168.56.103 上
運行 Node Exporter
在兩個 host 上執行如下命令:
docker run -d -p 9100:9100 \
-v "/proc:/host/proc" \
-v "/sys:/host/sys" \
-v "/:/rootfs" \
--net=host \
prom/node-exporter \
--path.procfs /host/proc \
--path.sysfs /host/sys \
--collector.filesystem.ignored-mount-points "^/(sys|proc|dev|host|etc)($|/)"
注意,這里我們使用了 --net=host,這樣 Prometheus Server 可以直接與 Node Exporter 通信。
Node Exporter 啟動后,將通過 9100 提供 host 的監控數據。在瀏覽器中通過 http://192.168.56.102:9100/metrics 測試一下。
運行 cAdvisor
在兩個 host 上執行如下命令:
docker run \
--volume=/:/rootfs:ro \
--volume=/var/run:/var/run:rw \
--volume=/sys:/sys:ro \
--volume=/var/lib/docker/:/var/lib/docker:ro \
--publish=8080:8080 \
--detach=true \
--name=cadvisor \
--net=host \
google/cadvisor:latest
注意,這里我們使用了 --net=host,這樣 Prometheus Server 可以直接與 cAdvisor 通信。
cAdvisor 啟動后,將通過 8080 提供 host 的監控數據。在瀏覽器中通過 http://192.168.56.102:8080/metrics 測試一下。
運行 Prometheus Server
在 host 192.168.56.103 上執行如下命令:
docker run -d -p 9090:9090 \
-v /root/prometheus.yml:/etc/prometheus/prometheus.yml \
--name prometheus \
--net=host \
prom/prometheus
注意,這里我們使用了
--net=host
,這樣 Prometheus Server 可以直接與 Exporter 和 Grafana 通信。
prometheus.yml 是 Prometheus Server 的配置文件。
最重要的配置是:
static_configs:
- targets: ['localhost:9090','localhost:8080','localhost:9100','192.168.56.102:8080','192.168.56.102:9100']
指定從哪些 exporter 抓取數據。這里指定了兩台 host 上的 Node Exporter 和 cAdvisor。
另外 localhost:9090 就是 Prometheus Server 自己,可見 Prometheus 本身也會收集自己的監控數據。同樣地,我們也可以通過 http://192.168.56.103:9090/metrics 測試一下。
在瀏覽器中打開 http://192.168.56.103:9090 ,點擊菜單 Status -> Targets。
如下圖所示:
所有 Target 的 State 都是 UP,說明 Prometheus Server 能夠正常獲取監控數據
運行 Grafana
在 host 192.168.56.103 上執行如下命令:
docker run -d -i -p 3000:3000 \
-e "GF_SERVER_ROOT_URL=http://grafana.server.name" \
-e "GF_SECURITY_ADMIN_PASSWORD=secret" \
--net=host \
grafana/grafana
注意,這里我們使用了 --net=host,這樣 Grafana 可以直接與 Prometheus Server 通信。
-e "GF_SECURITY_ADMIN_PASSWORD=secret 指定了 Grafana admin用戶密碼 secret。
Grafana 啟動后。在瀏覽器中打開 http://192.168.56.103:3000/
登錄后,Grafana 將引導我們配置 Data Source。
Name 為 Data Source 命名,例如 prometheus。
Type 選擇 Prometheus。
Url 輸入 Prometheus Server 的地址 http://192.168.56.103:9090
其他保持默認值,點擊 Add。
如果一切順利,Grafana 應該已經能夠訪問 Prometheus 中存放的監控數據了,那么如何展示呢?
Grafana 是通過 Dashboard 展示數據的,在 Dashboard 中需要定義:
展示 Prometheus 的哪些多維數據?需要給出具體的查詢語言表達式。
用什么形式展示,比如二維線性圖,儀表圖,各種坐標的含義等。
可見,要做出一個 Dashboard 也不是件容易的事情。幸運的是,我們可以借助開源社區的力量,直接使用現成的 Dashboard。
訪問 https://grafana.com/dashboards?dataSource=prometheus&search=docker,將會看到很多用於監控 Docker 的 Dashboard。
我們可以下載這些現成的 Dashboard,然后 import 到我們的 Grafana 中就可以直接使用了。
比如下載 Docker and system monitoring,得到一個 json 文件,然后點擊 Grafana 左上角菜單 Dashboards -> Import。
導入我們下載的 json 文件。
Dashboard 將立刻展示出漂亮的圖表。
在這個 Dashboard 中,上部分是 host 的數據,我們可以通過 Node 切換不同的 host。
Dashboard 的下半部分展示的是所有的容器監控數據。Grafana 的 Dashboard 是可交互的,我們可以在圖表上只顯示指定的容器、選取指定的時間區間、重新組織和排列圖表、調整刷新頻率,功能非常強大。
DOCKER啟動的時候提示WARNING: IPV4 FORWARDING IS DISABLED. NETWORKING WILL NOT WORK.
修改配置文件:
vim /usr/lib/sysctl.d/00-system.conf
追加
net.ipv4.ip_forward=1
接着重啟網絡
[root@localhost mytomcat]# systemctl restart network