jmx_exportter+prometheus+grafana監控hadoop


0.介紹(摘錄自https://www.hi-linux.com/posts/25047.html)

什么是Prometheus?

Prometheus是由SoundCloud開發的開源監控報警系統和時序列數據庫(TSDB)。Prometheus使用Go語言開發,是Google BorgMon監控系統的開源版本。Prometheus性能也足夠支撐上萬台規模的集群。

Prometheus的特點

  • 多維度數據模型。
  • 靈活的查詢語言。
  • 不依賴分布式存儲,單個服務器節點是自主的。
  • 通過基於HTTP的pull方式采集時序數據。
  • 可以通過中間網關進行時序列數據推送。
  • 通過服務發現或者靜態配置來發現目標服務對象。
  • 支持多種多樣的圖表和界面展示,比如Grafana等。

Prometheus相關組件

Prometheus生態系統由多個組件組成,它們中的一些是可選的。多數Prometheus組件是Go語言寫的,這使得這些組件很容易編譯和部署。

  • Prometheus Server

主要負責數據采集和存儲,提供PromQL查詢語言的支持。

  • 客戶端SDK

官方提供的客戶端類庫有go、java、scala、python、ruby,其他還有很多第三方開發的類庫,支持nodejs、php、erlang等。

  • Push Gateway

支持臨時性Job主動推送指標的中間網關。

  • PromDash

使用Rails開發可視化的Dashboard,用於可視化指標數據。

  • Exporter

Exporter是Prometheus的一類數據采集組件的總稱。它負責從目標處搜集數據,並將其轉化為Prometheus支持的格式。與傳統的數據采集組件不同的是,它並不向中央服務器發送數據,而是等待中央服務器主動前來抓取。

Prometheus提供多種類型的Exporter用於采集各種不同服務的運行狀態。目前支持的有數據庫、硬件、消息中間件、存儲系統、HTTP服務器、JMX等。

  • alertmanager

警告管理器,用來進行報警。

  • prometheus_cli

命令行工具。

  • 其他輔助性工具

多種導出工具,可以支持Prometheus存儲數據轉化為HAProxy、StatsD、Graphite等工具所需要的數據存儲格式。

Prometheus的架構

下面這張圖說明了Prometheus的整體架構,以及生態中的一些組件作用:

Prometheus的基本原理是通過HTTP協議周期性抓取被監控組件的狀態,任意組件只要提供對應的HTTP接口就可以接入監控。不需要任何SDK或者其他的集成過程。這樣做非常適合做虛擬化環境監控系統,比如VM、Docker、Kubernetes等。輸出被監控組件信息的HTTP接口被叫做exporter 。目前互聯網公司常用的組件大部分都有exporter可以直接使用,比如Varnish、Haproxy、Nginx、MySQL、Linux系統信息(包括磁盤、內存、CPU、網絡等等)。

Prometheus服務過程大概是這樣:

  • Prometheus Daemon負責定時去目標上抓取metrics(指標)數據,每個抓取目標需要暴露一個http服務的接口給它定時抓取。Prometheus支持通過配置文件、文本文件、Zookeeper、Consul、DNS SRV Lookup等方式指定抓取目標。Prometheus采用PULL的方式進行監控,即服務器可以直接通過目標PULL數據或者間接地通過中間網關來Push數據。

  • Prometheus在本地存儲抓取的所有數據,並通過一定規則進行清理和整理數據,並把得到的結果存儲到新的時間序列中。

  • Prometheus通過PromQL和其他API可視化地展示收集的數據。Prometheus支持很多方式的圖表可視化,例如Grafana、自帶的Promdash以及自身提供的模版引擎等等。Prometheus還提供HTTP API的查詢方式,自定義所需要的輸出。

  • PushGateway支持Client主動推送metrics到PushGateway,而Prometheus只是定時去Gateway上抓取數據。

  • Alertmanager是獨立於Prometheus的一個組件,可以支持Prometheus的查詢語句,提供十分靈活的報警方式。

Prometheus適用的場景

Prometheus在記錄純數字時間序列方面表現非常好。它既適用於面向服務器等硬件指標的監控,也適用於高動態的面向服務架構的監控。對於現在流行的微服務,Prometheus的多維度數據收集和數據篩選查詢語言也是非常的強大。Prometheus是為服務的可靠性而設計的,當服務出現故障時,它可以使你快速定位和診斷問題。它的搭建過程對硬件和服務沒有很強的依賴關系。

Prometheus不適用的場景

Prometheus它的價值在於可靠性,甚至在很惡劣的環境下,你都可以隨時訪問它和查看系統服務各種指標的統計信息。 如果你對統計數據需要100%的精確,它並不適用,例如:它不適用於實時計費系統。

1.部署prometheus280、驗證安裝

  解壓安裝包到指定目錄 /usr/local/prom/prometheus280

 

# ./prometheus --version
prometheus, version 2.7.1 (branch: HEAD, revision: 62e591f928ddf6b3468308b7ac1de1c63aa7fcf3)
  build user:       root@f9f82868fc43
  build date:       20190131-11:16:59
  go version:       go1.11.5

 

2.配置監控

# cat prometheus.yml 
# my global config
global:
  scrape_interval:     15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
# 默認抓取間隔, 15秒向目標抓取一次數據。 evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute. # scrape_timeout is set to the global default (10s). # Alertmanager configuration alerting: alertmanagers: - static_configs: - targets: # - alertmanager:9093 # Load rules once and periodically evaluate them according to the global 'evaluation_interval'. rule_files: # - "first_rules.yml" # - "second_rules.yml" # A scrape configuration containing exactly one endpoint to scrape: # Here it's Prometheus itself. scrape_configs: # The job name is added as a label `job=
<job_name>` to any timeseries scraped from this config.
這個配置是表示在這個配置內的時間序例,每一條都會自動添加上這個{job_name:"prometheus"}的標簽。 - job_name: 'prometheus' # metrics_path defaults to '/metrics' # scheme defaults to 'http'. static_configs: - targets: ['localhost:9090']

[小記錄,可能也沒啥用,只是突然發現可以修改] metrics_path 默認 '/metrics',即http://*:*/metrics,可以修改為其他的,在static_configs前自定義即可,即

 

    metrics_path: '/jmx'
    static_configs:

 

 

3.配置prometheus為開機自動運行

1)創建用戶

  單獨創建一個專門用於運行prometheus的用戶,不用root運行程序是一種好習慣。主目錄為/var/lib/prometheus,用作prometheus的數據目錄

# groupadd prometheus
# useradd -g prometheus -m -d /var/lib/prometheus -s /sbin/nologin prometheus
# chown -R prometheus:prometheus /usr/local/prom/
# chown -R prometheus:prometheus /var/lib/prometheus

2)創建systemd服務

# cat /etc/systemd/system/prometheus.service

[Unit]
Description=prometheus
After=network.target
[Service]
Type=simple
User=prometheus
ExecStart=/usr/local/prom/prometheus280/prometheus --config.file=/usr/local/prom/prometheus280/prometheus.yml --storage.tsdb.path=/var/lib/prometheus
Restart=on-failure
[Install]
WantedBy=multi-user.target

3)驗證

4.為hadoop添加jmx_exporter插件

1)下載jmx_exporter

https://repo1.maven.org/maven2/io/prometheus/jmx/jmx_prometheus_javaagent/0.11.0/jmx_prometheus_javaagent-0.11.0.jar

cp /media/sf_Downloads/jmx_prometheus_javaagent-0.11.0.jar /usr/local/prom/exporter/jmx

2)配置nn、dn配置文件

cat namenode.yaml 
startDelaySeconds: 0
hostPort: 192.168.56.10:1234 #master為本機IP(一般可設置為localhost);1234為想設置的jmx端口(可設置為未被占用的端口)
#jmxUrl: service:jmx:rmi:///jndi/rmi://127.0.0.1:1234/jmxrmi
ssl: false
lowercaseOutputName: false
lowercaseOutputLabelNames: false
[root@redhat74 jmx]# cat datanode.yaml 
startDelaySeconds: 0
hostPort: 192.168.56.10:1235 #master為本機IP(一般可設置為localhost);1234為想設置的jmx端口(可設置為未被占用的端口)
#jmxUrl: service:jmx:rmi:///jndi/rmi://127.0.0.1:1234/jmxrmi
ssl: false
lowercaseOutputName: false
lowercaseOutputLabelNames: false

3)修改hadoop相關腳本

# cat /usr/hdp/3.1.0.0-78/hadoop-hdfs/bin/hdfs 和/usr/hdp/3.1.0.0-78/hadoop/bin/hdfs
#!/bin/bash

export HADOOP_HOME=${HADOOP_HOME:-/usr/hdp/3.1.0.0-78/hadoop}
export HADOOP_MAPRED_HOME=${HADOOP_MAPRED_HOME:-/usr/hdp/3.1.0.0-78/hadoop-mapreduce}
export HADOOP_YARN_HOME=${HADOOP_YARN_HOME:-/usr/hdp/3.1.0.0-78/hadoop-yarn}
export HADOOP_LIBEXEC_DIR=${HADOOP_HOME}/libexec
export HDP_VERSION=${HDP_VERSION:-3.1.0.0-78}
export HADOOP_OPTS="${HADOOP_OPTS} -Dhdp.version=${HDP_VERSION}"
#jmx_exporter#
export HDFS_NAMENODE_OPTS="$HDFS_NAMENODE_JMX_OPTS -javaagent:/usr/local/prom/exporter/jmx/jmx_prometheus_javaagent-0.11.0.jar=9200:/usr/local/prom/exporter/jmx/namenode.yaml"
export HDFS_DATANODE_OPTS="$HDFS_DATANODE_JMX_OPTS -javaagent:/usr/local/prom/exporter/jmx/jmx_prometheus_javaagent-0.11.0.jar=9300:/usr/local/prom/exporter/jmx/datanode.yaml"
exec /usr/hdp/3.1.0.0-78//hadoop-hdfs/bin/hdfs.distro "$@"
編輯前台hadoop-env template(hadoop-env.sh每次都是依據template重新生成的)
      
#jmx_exporter#
export HDFS_NAMENODE_JMX_OPTS="-Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.local.only=false   -Dcom.sun.management.jmxremote.port=1234 $HDFS_NAMENODE_JMX_OPTS "
export HDFS_DATANODE_JMX_OPTS="-Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.local.only=false   -Dcom.sun.management.jmxremote.port=1235 $HDFS_DATANODE_JMX_OPTS "

4)重啟集群

chown -R hdfs:hadoop /usr/local/prom/exporter/jmx

因為只配了一個節點,standby nn一直沒有進行checkpoint,手工執行一下

$ hdfs dfsadmin -safemode enter
Safe mode is ON
$ hdfs dfsadmin -saveNamespace
Save namespace successful

5)9200和9300驗證

6)為jmx添加prometheus配置

 vi prometheus.yml
  - job_name: 'hadoop-nn'
    static_configs:
    - targets: ['localhost:1234']
   
  - job_name: 'hadoop-dn' 
    static_configs:
    - targets: ['localhost:1235'] 

7)重啟prometheus驗證

5.grafana展現

 1)安裝grafana並運行

#yum install grafana-5.4.3-1.x86_64.rpm

# systemctl start grafana-server
# systemctl status grafana-server

2)前台配置

http://192.168.56.10:3000/login

admin/admin

添加數據庫prometheus

 

終於搭完了,沒感覺咋滴,哎。。。。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM