概述
不久前,我們在文章《如何擴展單個Prometheus實現近萬Kubernetes集群監控?》中詳細介紹了TKE團隊大規模Kubernetes聯邦監控系統Kvass的演進過程,其中介紹了針對規模較大的集群,我們是如何通過修改Prometheus代碼來實現橫向擴縮容的。經過方案上的改進,Kvass目前已經支持以Sidecar的方式實現Prometheus集群化,而不是修改Prometheus代碼。由於方案對社區有一定價值,團隊決定將項目開源出來,分享給社區。項目地址
本文首先將給出Prometheus的單機性能瓶頸,以及現有的社區集群化方案,隨后將詳細介紹開源版Kvass的設計思想,使用案例及壓測結果。
另外,騰訊雲容器團隊在Kvass的設計思想上進一步優化,構建了支持多集群的高性能雲原生監控服務,產品目前已正式公測,歡迎讀者試用。傳送門: https://console.cloud.tencent.com/tke2/prometheus
后續章節我們也將直接使用該產品來展示Kvass對大規模集群的監控能力。
Prometheus
Prometheus依靠其強勁的單機性能,靈活的PromSQL,活躍的社區生態,逐漸成為雲原生時代最核心的監控組件,被全球各大產商用於監控他們的核心業務。
然而,面對大規模監控目標(數千萬series)時,由於原生Prometheus只有單機版本,不提供集群化功能,開發人員不得不通過不斷增加機器的配置來滿足Prometheus不斷上漲的內存。
單機性能瓶頸
我們對單機Prometheus進行的壓測,用以探測單個Prometheus分片的合理負載,壓測的目標有兩個。
- 確定target數目對Prometheus負載的關系
- 確定series數目和Prometheus負載的關系
target相關性
我們保持總series為100萬不變, 通過改變target個數,觀察Prometheus負載變動。
壓測結果
target數量 | CPU (core) | mem (GB) |
---|---|---|
100 | 0.17 | 4.6 |
500 | 0.19 | 4.2 |
1000 | 0.16 | 3.9 |
5000 | 0.3 | 4.6 |
- 從表中我們發現target數目的改動對Prometheus負載的影響並不是強相關的。在target數目增長50倍的情況下,CPU消耗有小量增長,但是內存幾乎不變。
series相關性
我們保持target數目不變,通過改變總series數,觀察Prometheus的負載變動。
壓測結果
series數量 (萬) | CPU (core) | mem (GB) | 查詢1000 series 15m數據(s) |
---|---|---|---|
100 | 0.191 | 3.15 | 0.2 |
300 | 0.939 | 20.14 | 1.6 |
500 | 2.026 | 30.57 | 1.5 |
- 從表中,Prometheus的負載受到series的影響較大,series越多,資源消耗越大。
- 當series數據超過300萬時,Prometheus內存增長較為明顯,需要使用較大內存的機器來運行。
壓測過程中,我們使用了工具去生成預期數目的series,工具生成的series每個label的長度及值的長度都較小,固定為10個字符左右。我們的目的是觀察相對負載變化,實際生產中由於label長度不同,服務發現機制的消耗不同,相同的series數目所消耗的負載會比壓測中高不少。
現有集群化方案
針對單機Prometheus在大規模數據監控時的性能瓶頸問題,社區目前已經存在一些分片化方案,主要包括以下幾種。
hash_mod
Prometheus官方支持通過Relabel機制,在配置文件中,對采集上來的數據進行hash,通過在不同Prometheus實例的配置文件中指定不同的moduleID來進行分片化,然后通過聯邦,Thanos等方式將數據進行統一匯總,如下圖所示,讀者也可以直接參考【官方文檔】。
配置文件分割
還有一種方法是根據業務進行job層面的分割,不同Prometheus使用完全獨立的采集配置,其中包含了不同的job,。
上述方案存在的問題
無論是hash_mod的方式,還是配置文件分割的方式,其本質都是將數據切分到多個采集配置中,由不同Prometheus進行采集。兩者都存在以下幾個缺點。
- 對預監控數據要有所了解:使用上述方法的前提是使用者必須對監控對象會上報的數據有所了解,例如必須知道監控對象會上報某個用於hash_mod的label,或者必須知道不同job的整體規模,才能對job進行划分。
- 實例負載不均衡:雖然上述方案預期都是希望將數據打散到不同Prometheus實例上,但實際上通過某些label的值進行hash_mod的,或者干脆按job進行划分的方式並不能保證每個實例最終所采集的series數是均衡的,實例依舊存在內存占用過高的風險。
- 配置文件有侵入:使用者必須對原配置文件進行改造,加入Relabel相關配置,或者將一份配置文件划分成多份,由於配置文件不再單一,新增,修改配置難度大大增加。
- 無法動態擴縮容:上述方案中的由於配置是根據實際監控目標的數據規模來特殊制定的,並沒有一種統一的擴縮容方案,可以在數據規模增長時增加Prometheus個數。當然,用戶如果針對自己業務實際情況編寫擴縮容的工具確實是可以的,但是這種方式並不能在不同業務間復用。
- 部分API不再正常:上述方案將數據打散到了不同實例中,然后通過聯邦或者Thanos進行匯總,得到全局監控數據,但是在不額外處理的情況下會導致部分Prometheus 原生API無法得到正確的值,最典型的是/api/v1/targets ,上述方案下無法得到全局targets值。
Kvass的原理
設計目標
針對上述問題,我們希望設計一種無侵入的集群化方案,它對使用者表現出來的,是一個與原生Prometheus配置文件一致,API兼容,可擴縮容的虛擬Prometheus。具體而言,我們有以下設計目標。
- 無侵入,單配置文件:我們希望使用者看到的,修改的都是一份原生的配置文件,不用加任何特殊的配置。
- 無需感知監控對象:我們希望使用者不再需要預先了解采集對象,不參與集群化的過程。
- 實例負載盡可能均衡:我們希望能根據監控目標的實際負載來划分采集任務,讓實例盡可能均衡。
- 動態擴縮容:我們希望系統能夠根據采集對象規模的變化進行動態擴縮容,過程中數據不斷點,不缺失。
- 兼容核心PrometheusAPI:我們希望一些較為核心的API,如上邊提到的/api/v1/target接口是正常的。
架構
Kvass由多個組件構成,下圖給出了Kvass的架構圖,我們在架構圖中使用了Thanos,實際上Kvass並不強依賴於Thanos,可以換成其他TSDB。
- Kvass sidecar: 用於接收Coordinator下發的采集任務,生成新的配置文件給Prometheus,也服務維護target負載情況。
- Kvass coordinator: 該組件是集群的中心控制器,負責服務發現,負載探測,targets下發等。
- Thanos 組件: 圖中只使用了Thanos sidecar與Thanos query,用於對分片的數據進行匯總,得到統一的數據視圖。
Coordinator
Kvass coordinaor 首先會代替Prometheus對采集目標做服務發現,實時獲得需要采集的target列表。
針對這些target,Kvass coordinaor會負責對其做負載探測,評估每個target的series數,一旦target負載被探測成功,Kvass coordinaor 就會在下個計算周期將target分配給某個負載在閾值以下的分片。
Kvass coordinaor 還負責對分片集群做擴縮容。
服務發現
Kvass coordinaor引用了原生Prometheus的服務發現代碼,用於實現與Prometheus 100%兼容的服務發現能力,針對服務發現得到的待抓取targets,Coordinaor會對其應用配置文件中的relabel_configs進行處理,得到處理之后的targets及其label集合。服務發現后得到的target被送往負載探測模塊進行負載探測。
負載探測
負載探測模塊從服務發現模塊獲得處理之后的targets,結合配置文件中的抓取配置(如proxy,證書等)對目標進行抓取,隨后解析計算抓取結果,獲得target的series規模。
負載探測模塊並不存儲任何抓取到的指標數據,只記錄target的負載,負載探測只對target探測一次,不維護后續target的負載變化,長期運行的target的負載信息由Sidecar維護,我們將在后面章節介紹。
target分配與擴容
在Prometheus單機性能瓶頸那一節,我們介紹過Prometheus的內存和series相關,確切來說,Prometheus的內存和其head series直接相關。Prometheus 會將最近(默認為2小時)采集到的數據的series信息緩存在內存中,我們如果能控制好每個分片內存中head series的數目,就能有效控制每個分片的內存使用量,而控制head series實際就是控制分片當前采集的target列表。
基於上邊的思路,Kvass coordinaor會周期性的對每個分片當前采集的target列表進行管理:分配新target,刪除無效target。
在每個周期,Coordinaor會首先從所有分片獲得當前運行狀態,其中包括分片當前內存中的series數目及當前正在抓取的target列表。隨后針對從服務發現模塊得到的全局target信息進行以下處理
- 如果該target已經被某個分片抓取,則繼續分配給他,分片的series數不變。
- 如果該target沒有任何分片抓取,則從負載探測模塊獲得其series(如果還未探測完則跳過,下個周期繼續),從分片中挑一個目前內存中series加上該target的series后依然比閾值低的,分配給他。
- 如果當前所有分片沒法容納所有待分配的targets,則進行擴容,擴容數量與全局series總量成正比。
target遷移和縮容
在系統運行過程中,target有可能會被刪除,如果某個分片的target被刪除且超過2小時,則該分片中的head series就會降低,也就是出現了部分空閑,因為target分配到了不同分片,如果有大量target被刪除,則會出現很多分片的內存占用都很低的情況,這種情況下,系統的資源利用率很低,我們需要對系統進行縮容。
當出現這種情時,Coordinaor會對target進行遷移,即將序號更大的分片(分片會從0進行編號)中的target轉移到序號更低的分片中,最終讓序號低的分片負載變高,讓序號高的分片完全空閑出來。如果存儲使用了thanos,並會將數據存儲到cos中,則空閑分片在經過2小時候會刪除(確保數據已被傳到cos中)。
多副本
Kvass的分片當前只支持以StatefulSet方式部署。
Coordinator將通過label selector來獲得所有分片StatefulSet,每個StatefulSet被認為是一個副本,StatefulSet中編號相同的Pod會被認為是同一個分片組,相同分片組的Pod將被分配相同的target並預期有相同的負載。
/api/v1/targets接口
上文提到Coordinator根據配置文件做了服務發現,得到了target列表,所以Coordinator實際上可以得到/api/v1/targets接口所需要的返回結果集合,但是由於Coordinator只做了服務發現,並不進行實際采集,所以target的采集狀態(例如健康狀態,上一次采集時間等)都無法直接得知。
當Coordinator接收到/api/v1/targets請求時,他會基於服務發現得到的target集合,結合向Sidecar(如果target已分配)或向探測模塊(target還未分配)詢問target采集狀態,綜合后將正確的/api/v1/targets結果返回。
Sidecar
上一節介紹了Kvass coordinaor的基本功能,要想系統正常運行,還需要Kvass sidecar的配合,其核心思想是將配置文件中所有服務發現模式全部改成static_configs並直接將已經relabel過的target信息寫入配置中,來達到消除分片服務發現和relabel行為,只采集部分target的效果。
每個分片都會有一個Kvass sidecar,其核心功能包括從Kvass coordinator接受本分片負責的target列表,生成新的配置文件給該分片的Prometheus使用。另外,Kvass sidecar還會劫持抓取請求,維護target最新負載。Kvass sidecar還作為PrometheusAPI的網關,修正部分請求結果。
配置文件生成
Coordinaor經過服務發現,relabel及負載探測后,會將target分配給某個分片,並將target信息下發給Sidecar,包括
- target的地址,
- target預估的series值
- target的hash值
- 處理完relabel之后的label集合。
Sidecar根據從Coordinator得到的target信息,結合原始配置文件,生成一個新的配置文件給Prometheus使用,這個新的配置文件做了如下改動。
- 將所有服務發現機制改為static_configs模式,並直接寫入target列表,每個target包含經過relabel之后的label值
- 由於現在target已經relabel過了,所以刪除job配置中的relabel_configs項,但是依舊保留metrics_rebale_configs
- 將target的label中的scheme字段全部替換成http,並將原schme以請求參數的形式加入到label集合中
- 將target的job_name以請求參數的形式加入到label集合中* 注入proxy_url將所有抓取請求代理到Sidecar
我們來看一個例子,假如原來的配置是一個kubelet的采集配置
global:
evaluation_interval: 30s
scrape_interval: 15s
scrape_configs:
- job_name: kubelet
honor_timestamps: true
metrics_path: /metrics
scheme: https
kubernetes_sd_configs:
- role: node
bearer_token: xxx
tls_config:
insecure_skip_verify: true
relabel_configs:
- separator: ;
regex: __meta_kubernetes_node_label_(.+)
replacement: $1
action: labelmap
通過注入將生成一個新的配置文件
global:
evaluation_interval: 30s
scrape_interval: 15s
scrape_configs:
- job_name: kubelet
honor_timestamps: true
metrics_path: /metrics
scheme: https
proxy_url: http://127.0.0.1:8008 # 所有抓取請求代理到Sidecar
static_configs:
- targets:
- 111.111.111.111:10250
labels:
__address__: 111.111.111.111:10250
__metrics_path__: /metrics
__param__hash: "15696628886240206341"
__param__jobName: kubelet
__param__scheme: https # 保存原始的scheme
__scheme__: http # 設置新的scheme,這將使得代理到Sidecar的抓取請求都是http請求
# 以下是經過relabel_configs處理之后得到的label集合
beta_kubernetes_io_arch: amd64
beta_kubernetes_io_instance_type: QCLOUD
beta_kubernetes_io_os: linux
cloud_tencent_com_auto_scaling_group_id: asg-b4pwdxq5
cloud_tencent_com_node_instance_id: ins-q0toknxf
failure_domain_beta_kubernetes_io_region: sh
failure_domain_beta_kubernetes_io_zone: "200003"
instance: 172.18.1.106
job: kubelet
kubernetes_io_arch: amd64
kubernetes_io_hostname: 172.18.1.106
kubernetes_io_os: linux
上邊新生成的配置文件是Prometheus真正使用的配置文件,Sidecar通過Coordinator下發的target列表來生成配置,就可以讓Prometheus有選擇性得進行采集。
抓取劫持
在上邊的配置生成中,我們會將proxy注入到job的配置中,並且target的label中,scheme會被設置成http,所以Prometheus所有的抓取請求都會被代理到Sidecar,之所以要這么做,是因為Sidecar需要維護每個target新的series規模,用於Coordinator查閱后作為target遷移的參考。
從上邊配置生成我們可以看到,有以下幾個額外的請求參數會被一並發送到Sidecar
- hash:target的hash值,用於Sidecar識別是哪個target的抓取請求,hash值由Coordinator根據target的label集合進行計算獲得並傳遞給Sidecar。
- jobName:是哪個job下的抓取請求,用於Sidecar根據原配置文件中job的請求配置(如原proxy_url,證書等)對抓取目標發起真正的請求。
- scheme:這里的scheme是target通過relabel操作之后最終得到的協議值,雖然在job配置文件中已經有scheme字段,但Prometheus配置文件依舊支持通過relabel指定某個target的請求協議。在上述生成新配置過程中,我們將真實的scheme保存到這個參數里,然后將scheme全部設置成http。
有了上述幾個參數,Sidecar就可以對抓取目標發起正確的請求,並得到監控數據,在統計的target這次抓取的series規模后,Sidecar會將監控數據拷貝一份給Prometheus。
API代理
由於Sidecar的存在,部分發往Prometheus的API請求需要被特殊處理,包括
- /-/reload:由於Prometheus真正使用的配置文件由Sidecar生成,針對該接口,需要由Sidecar去處理並在處理成功后調用Prometheus的/-/reload接口。
- /api/v1/status/config:該接口需要由Sidecar處理並把原配置文件返回。
- 其他接口直接發往Prometheus。
全局數據視圖
由於我們將采集目標分散到了不同分片中,導致每個分片的數據都只是全局數據的一部分,所以我們需要使用額外的組件來將所有數據進行匯總並去重(多副本的情況下),得到全局數據視圖。
以thanos為例
thanos是一個非常好的方案,通過加入thanos組件,可以很方便得得到kvass集群的全局數據視圖。當然我們也可以通過加入remote writer配置來使用其他TSDB方案,例如influxdb,M3等等。
使用例子
這一節我們通過一個部署例子,來直觀感受一下Kvass的效果,相關yaml文件可以在這里找到https://github.com/tkestack/kvass/tree/master/examples
讀者可以將項目clone到本地,並進入examples。
git clone https://github.com/tkestack/kvass.git
cd kvass/examples
部署數據生成器
我們提供了一個metrics數據生成器,可以指定生成一定數量的series,在本例子中,我們將部署6個metrics生成器副本,每個會生成10045 series (其中45 series為golang的metrics)。
kubectl create -f metrics.yaml
部署kvass
現在我們部署基於Kvass的Prometheus集群,用以采集這6個metrics生成器的指標。
首先我們部署rbac相關配置
kubectl create -f kvass-rbac.yaml
接着部署一個Prometheus config文件,這個文件就是我們的原始配置,我們在這個配置文件中,使用kubernetes_sd來做服務發現
kubectl create -f config.yaml
配置如下
global:
scrape_interval: 15s
evaluation_interval: 15s
external_labels:
cluster: custom
scrape_configs:
- job_name: 'metrics-test'
kubernetes_sd_configs:
- role: pod
relabel_configs:
- source_labels: [__meta_kubernetes_pod_label_app_kubernetes_io_name]
regex: metrics
action: keep
- source_labels: [__meta_kubernetes_pod_ip]
action: replace
regex: (.*)
replacement: ${1}:9091
target_label: __address__
- source_labels:
- __meta_kubernetes_pod_name
target_label: pod
現在我們來部署Kvass coordinator
kubectl create -f coordinator.yaml
我們在Coordinator的啟動參數中設置每個分片的最大head series數目不超過30000
--shard.max-series=30000
我們現在就可以部署帶有Kvass sidecar的Prometheus了,這里我們只部署單個副本
kubectl create -f prometheus-rep-0.yaml
部署thanos-query
為了得到全局數據,我們需要部署一個thanos-query
kubectl create -f thanos-query.yaml
查看結果
根據上述計算,監控目標總計6個target, 60270 series,根據我們設置每個分片不能超過30000 series,則預期需要3個分片。
我們發現,Coordinator成功將StatefulSet的副本數改成了3。
我們看下單個分片內存中的series數目,發現只有2個target的量
我們再通過thanos-query來查看全局數據,發現數據是完整的(其中metrics0為指標生成器生成的指標名)
雲原生監控
騰訊雲容器團隊在Kvass的設計思想上進一步優化,構建了高性能支持多集群雲原生監控服務,產品目前已正式公測。
大集群監控
這一節我們就直接使用雲原生監控服務來監控一個規模較大的真實集群,測試一下Kvass監控大集群的能力。
集群規模
我們關聯的集群規模大致如下
- 1060個節點
- 64000+ Pod
- 96000+ container
采集配置
我們直接使用雲原生監控服務在關聯集群默認添加的采集配置,目前已包含了社區主流的監控指標:
- kube-state-metrics
- node-exporer
- kubelet
- cadvisor
- kube-apiserver
- kube-scheduler
- kube-controler-manager
測試結果
- 總計3400+target, 2700+萬series
- 總計擴容了17個分片
- 每個分片series穩定在200w以下
- 每個分片消耗內存在6-10G左右
雲原生監控所提供的默認Grafana面板也能正常拉取
targets列表也能正常拉取
多集群監控
值得一提的是,雲原生監控服務不僅支持監控單個大規模集群,還可以用同個實例監控多個集群,並支持采集和告警模板功能,可一鍵將采集告警模板下發至各地域各個集群,徹底告別了每個集群重復添加配置的問題。
總結
本文從問題分析,設計目標,原理剖析,使用案例等方面詳細介紹了一種開源Prometheus集群化技術,可在不修改Prometheus代碼的前提下使其支持橫向擴縮容,從而監控單機Prometheus無法監控的大規模集群。
【騰訊雲原生】雲說新品、雲研新術、雲游新活、雲賞資訊,掃碼關注同名公眾號,及時獲取更多干貨!!