Flagger on ASM·基於Mixerless Telemetry實現漸進式灰度發布系列 1 遙測數據

簡介：服務網格ASM的Mixerless Telemetry技術，為業務容器提供了無侵入式的遙測數據。遙測數據一方面作為監控指標被ARMPS/prometheus采集，用於服務網格可觀測性；另一方面被HPA和flaggers使用，成為應用級擴縮容和漸進式灰度發布的基石。本系列聚焦於遙測數據在應用級擴縮容和漸進式灰度發布上的實踐，將分三篇介紹遙測數據(監控指標)、應用級擴縮容，和漸進式灰度發布。

序

服務網格ASM的Mixerless Telemetry技術，為業務容器提供了無侵入式的遙測數據。遙測數據一方面作為監控指標被ARMPS/prometheus采集，用於服務網格可觀測性；另一方面被HPA和flaggers使用，成為應用級擴縮容和漸進式灰度發布的基石。

本系列聚焦於遙測數據在應用級擴縮容和漸進式灰度發布上的實踐，將分三篇介紹遙測數據(監控指標)、應用級擴縮容，和漸進式灰度發布。

總體架構

本系列的總體架構如下圖所示：

ASM下發Mixerless Telemetry相關的EnvoyFilter配置到各ASM sidecar(envoy)，啟用應用級監控指標的采集。
業務流量通過Ingress Gateway進入，各ASM sidecar開始采集相關監控指標。
Prometheus從各POD上采集監控指標。
HPA通過Adapter從Prometheus查詢相關POD的監控指標，並根據配置進行擴縮容。
Flagger通過Prometheus查詢相關POD的監控指標，並根據配置向ASM發起VirtualService配置更新。
ASM下發VirtualService配置到各ASM sidecar，從而實現漸進式灰度發布。

Flagger漸進式發布流程

Flagger官網描述了漸進式發布流程，這里翻譯如下：

探測並更新灰度Deployment到新版本
灰度POD實例數從0開始擴容
等待灰度POD實例數到達HPA定義的最小副本數量
灰度POD實例健康檢測
由flagger-loadtester實例發起acceptance-test驗證
灰度發布在驗證失敗時終止
由flagger-loadtester實例發起load-test驗證
在配置流量復制時開始從生產全流量復制到灰度
每分鍾從Prometheus查詢並檢測請求成功率和請求延遲等監控指標
灰度發布在監控指標不符預期的數量到達閾值時終止
達到配置中迭代的次數后停止流量復制
開始切流到灰度POD實例
更新生產Deployment到新版本
等待生產Deployment滾動升級完畢
等待生產POD實例數到達HPA定義的最小副本數量
生產POD實例健康檢測
切流回生產POD實例
灰度POD實例縮容至0
發送灰度發布分析結果通知

原文如下：

With the above configuration, Flagger will run a canary release with the following steps:

detect new revision (deployment spec, secrets or configmaps changes)

scale from zero the canary deployment

wait for the HPA to set the canary minimum replicas

check canary pods health

run the acceptance tests

abort the canary release if tests fail

start the load tests

mirror 100% of the traffic from primary to canary

check request success rate and request duration every minute

abort the canary release if the metrics check failure threshold is reached

stop traffic mirroring after the number of iterations is reached

route live traffic to the canary pods

promote the canary (update the primary secrets, configmaps and deployment spec)

wait for the primary deployment rollout to finish

wait for the HPA to set the primary minimum replicas

check primary pods health

switch live traffic back to primary

scale to zero the canary

send notification with the canary analysis result

前提條件

已創建ACK集群，詳情請參見創建Kubernetes托管版集群。
已創建ASM實例，詳情請參見創建ASM實例。

Setup Mixerless Telemetry

本篇將介紹如何基於ASM配置並采集應用級監控指標(比如請求數量總數istio_requests_total和請求延遲istio_request_duration等)。主要步驟包括創建EnvoyFilter、校驗envoy遙測數據和校驗Prometheus采集遙測數據。

1 EnvoyFilter

登錄ASM控制台，左側導航欄選擇服務網格 >網格管理，並進入ASM實例的功能配置頁面。

勾選開啟采集Prometheus 監控指標
點選啟用自建 Prometheus，並填入Prometheus服務地址：`prometheus:9090(本系列將使用社區版Prometheus，后文將使用這個配置)。如果使用阿里雲產品ARMS，請參考集成ARMS Prometheus實現網格監控。
勾選啟用 Kiali(可選)

點擊確定后，我們將在控制平面看到ASM生成的相關EnvoyFilter列表：

2 Prometheus

2.1 Install

執行如下命令安裝Prometheus(完整腳本參見：demo_mixerless.sh)。

kubectl --kubeconfig "$USER_CONFIG" apply -f $ISTIO_SRC/samples/addons/prometheus.yaml

2.2 Config Scrape

安裝完Prometheus，我們需要為其配置添加istio相關的監控指標。登錄ACK控制台，左側導航欄選擇配置管理>配置項，在istio-system下找到prometheus一行，點擊編輯。

在prometheus.yaml配置中，將scrape_configs.yaml中的配置追加到scrape_configs中。

保存配置后，左側導航欄選擇工作負載>容器組，在istio-system下找到prometheus一行，刪除Prometheus POD，以確保配置在新的POD中生效。

可以執行如下命令查看Prometheus配置中的job_name：

kubectl --kubeconfig "$USER_CONFIG" get cm prometheus -n istio-system -o jsonpath={.data.prometheus\\.yml} | grep job_name - job_name: 'istio-mesh' - job_name: 'envoy-stats' - job_name: 'istio-policy' - job_name: 'istio-telemetry' - job_name: 'pilot' - job_name: 'sidecar-injector' - job_name: prometheus job_name: kubernetes-apiservers job_name: kubernetes-nodes job_name: kubernetes-nodes-cadvisor - job_name: kubernetes-service-endpoints - job_name: kubernetes-service-endpoints-slow job_name: prometheus-pushgateway - job_name: kubernetes-services - job_name: kubernetes-pods - job_name: kubernetes-pods-slow

Mixerless驗證

1 podinfo

1.1 部署

使用如下命令部署本系列的示例應用podinfo：

kubectl --kubeconfig "$USER_CONFIG" apply -f $PODINFO_SRC/kustomize/deployment.yaml -n test kubectl --kubeconfig "$USER_CONFIG" apply -f $PODINFO_SRC/kustomize/service.yaml -n test

1.2 生成負載

使用如下命令請求podinfo，以產生監控指標數據

podinfo_pod=$(k get po -n test -l app=podinfo -o jsonpath={.items..metadata.name}) for i in {1..10}; do kubectl --kubeconfig "$USER_CONFIG" exec $podinfo_pod -c podinfod -n test -- curl -s podinfo:9898/version echo done

2 確認生成(Envoy)

本系列重點關注的監控指標項是istio_requests_total和istio_request_duration。首先，我們在envoy容器內確認這些指標已經生成。

2.1 istio_requests_total

使用如下命令請求envoy獲取stats相關指標數據，並確認包含istio_requests_total。

kubectl --kubeconfig "$USER_CONFIG" exec $podinfo_pod -n test -c istio-proxy -- curl -s localhost:15090/stats/prometheus | grep istio_requests_total

返回結果信息如下：

:::: istio_requests_total ::::
# TYPE istio_requests_total counter istio_requests_total{response_code="200",reporter="destination",source_workload="podinfo",source_workload_namespace="test",source_principal="spiffe://cluster.local/ns/test/sa/default",source_app="podinfo",source_version="unknown",source_cluster="c199d81d4e3104a5d90254b2a210914c8",destination_workload="podinfo",destination_workload_namespace="test",destination_principal="spiffe://cluster.local/ns/test/sa/default",destination_app="podinfo",destination_version="unknown",destination_service="podinfo.test.svc.cluster.local",destination_service_name="podinfo",destination_service_namespace="test",destination_cluster="c199d81d4e3104a5d90254b2a210914c8",request_protocol="http",response_flags="-",grpc_response_status="",connection_security_policy="mutual_tls",source_canonical_service="podinfo",destination_canonical_service="podinfo",source_canonical_revision="latest",destination_canonical_revision="latest"} 10 istio_requests_total{response_code="200",reporter="source",source_workload="podinfo",source_workload_namespace="test",source_principal="spiffe://cluster.local/ns/test/sa/default",source_app="podinfo",source_version="unknown",source_cluster="c199d81d4e3104a5d90254b2a210914c8",destination_workload="podinfo",destination_workload_namespace="test",destination_principal="spiffe://cluster.local/ns/test/sa/default",destination_app="podinfo",destination_version="unknown",destination_service="podinfo.test.svc.cluster.local",destination_service_name="podinfo",destination_service_namespace="test",destination_cluster="c199d81d4e3104a5d90254b2a210914c8",request_protocol="http",response_flags="-",grpc_response_status="",connection_security_policy="unknown",source_canonical_service="podinfo",destination_canonical_service="podinfo",source_canonical_revision="latest",destination_canonical_revision="latest"} 10

2.2 istio_request_duration

使用如下命令請求envoy獲取stats相關指標數據，並確認包含istio_request_duration。

kubectl --kubeconfig "$USER_CONFIG" exec $podinfo_pod -n test -c istio-proxy -- curl -s localhost:15090/stats/prometheus | grep istio_request_duration

返回結果信息如下：

:::: istio_request_duration ::::
# TYPE istio_request_duration_milliseconds histogram istio_request_duration_milliseconds_bucket{response_code="200",reporter="destination",source_workload="podinfo",source_workload_namespace="test",source_principal="spiffe://cluster.local/ns/test/sa/default",source_app="podinfo",source_version="unknown",source_cluster="c199d81d4e3104a5d90254b2a210914c8",destination_workload="podinfo",destination_workload_namespace="test",destination_principal="spiffe://cluster.local/ns/test/sa/default",destination_app="podinfo",destination_version="unknown",destination_service="podinfo.test.svc.cluster.local",destination_service_name="podinfo",destination_service_namespace="test",destination_cluster="c199d81d4e3104a5d90254b2a210914c8",request_protocol="http",response_flags="-",grpc_response_status="",connection_security_policy="mutual_tls",source_canonical_service="podinfo",destination_canonical_service="podinfo",source_canonical_revision="latest",destination_canonical_revision="latest",le="0.5"} 10 istio_request_duration_milliseconds_bucket{response_code="200",reporter="destination",source_workload="podinfo",source_workload_namespace="test",source_principal="spiffe://cluster.local/ns/test/sa/default",source_app="podinfo",source_version="unknown",source_cluster="c199d81d4e3104a5d90254b2a210914c8",destination_workload="podinfo",destination_workload_namespace="test",destination_principal="spiffe://cluster.local/ns/test/sa/default",destination_app="podinfo",destination_version="unknown",destination_service="podinfo.test.svc.cluster.local",destination_service_name="podinfo",destination_service_namespace="test",destination_cluster="c199d81d4e3104a5d90254b2a210914c8",request_protocol="http",response_flags="-",grpc_response_status="",connection_security_policy="mutual_tls",source_canonical_service="podinfo",destination_canonical_service="podinfo",source_canonical_revision="latest",destination_canonical_revision="latest",le="1"} 10 ...

3 確認采集(Prometheus)

最后，我們驗證Envoy生成的監控指標數據，是否被Prometheus實時采集上來。對外暴露Prometheus服務，並使用瀏覽器請求該服務。然后在查詢框輸入istio_requests_total，得到結果如下圖所示。

原文鏈接

本文為阿里雲原創內容，未經允許不得轉載。