概述
上一篇文章分析了cloudera manager中監控數據、中心數據的存儲方式,如何配置外部表等。這一篇文章進一步分析監控數據的存儲,配置,調優等。
Service Monitor 和 Host Monitor 角色在cloudera manager中存儲了時間序列、健康數據、Impla查詢和Yarn應用的元數據。經過查看對應的Cloudera Manager的存儲連接,發現Service Monitor和Host Monitor的存儲使用的是levelDB的解析類,由此能夠判斷出本地存儲使用的是levelDB。LevelDB能夠說是key-value的數據庫的鼻祖。讀寫效率特別高,並發也非常大。而Cloudera Manager的監控的讀寫數據特別多、頻繁。這也可能是Cloudera Manager5選擇使用levelDB替換關系數據庫的原因。
Cloudera Manager 5 存儲Host Monitor 和 Service Monitor數據到本地數據庫。假設使用自己主動化升級配置從Cloudera Manager 4 升級到 5。數據會從Cloudera manager 4 中的內嵌數據庫或者外部數據庫中自己主動遷移到Cloudera Manger5中的本地數據庫中。
這是一個自己主動化運行的過程中,中間能夠查看遷移過程的日志等。
Service Monitor存儲了時間序列和健康數據。Impla查詢的元數據,Yarn應用的元數據。默認情況下,數據時存儲在/var/lib/cloudera-service-monitor/文件夾下,你也能夠改動Service Monitor Storage Directory 配置firehose.storage.base.directory。
You can control how much disk space to reserve for the different classes of data the Service Monitor stores by changing the following configuration options:
Time-series metrics and health data - Time-Series Storage (firehose_time_series_storage_bytes - 10 GB default)
Impala query metadata - Impala Storage (firehose_impala_storage_bytes - 1 GB default)
YARN application metadata - YARN Storage (firehose_yarn_storage_bytes - 1 GB default)
Host Monitor存儲了時間序列和健康數據。默認情況下,數據存儲在/var/lib/cloudera-host-monitor/文件夾下。你也能夠改動Host Monitor Storage Directory 配置。
You can control how much disk space to reserve for Host Monitor data by changing the following configuration option:
Time-series metrics and health data: Time Series Storage (firehose_time_series_storage_bytes - 10 GB default)
Service Monitor 和 Host Monitor使用非常多方式存儲時間序列指標數據。數據會不斷的被匯總成不同的粒度。比方每個小時,會把數據的平均值,最小值。最大值匯總成一個小時為粒度的數據,每6個小時。會匯總成6個小時的數據。每天、每個星期等。這樣的方式僅僅會匯總指標數據。Impla的查詢和Yarn應用的監控數據當接近限制時,會刪除舊的數據。
當存儲快達到限制時。會先刪除粒度最細的數據。保證存儲空間的釋放。比方會先刪除小時為粒度的數據,其次是以天微粒度的數據。
Moving Monitoring Data on an Active Cluster
Host Monitor and Service Monitor Memory Configuration
原創文章,歡迎轉載。轉載請標明出處 http://blog.csdn.net/shifenglov/article/details/41281399
版權聲明:本文博客原創文章,博客,未經同意,不得轉載。
