原文:AI模型运维——GPU性能监控NVML和DCGM

最近一年负责运维的GPU主机越来越多,发现现有的监控项无法很好的了解GPU的性能和负载情况,研究了下官方文档,在此记录。 一 NVML和DCGM NVML:https: developer.nvidia.com nvidia management library nvml DCGM:https: developer.nvidia.com dcgm 从网址就能看出,这两个工具都是nvidia官方推出 ...

2020-03-27 16:42 0 2381 推荐指数:

查看详情

AI模型——NVIDIA驱动、cuda、cudnn、nccl安装

目前大部分使用GPUAI模型,都使用的英伟达这套。 需要注意的是,驱动、cuda、cudnn版本需要一一对应,高低版本互不兼容。 驱动和cuda对应关系:https://docs.nvidia.com/deploy/cuda-compatibility/index.html 驱动下载 ...

Thu May 14 19:02:00 CST 2020 0 738
IT监控平台

最近设计了公司监控系统,已向高层汇报;会上沟通还不错,领导也非常认可 这边现在来总结分享设计思路及监控方案 背景条件 首先是业务系统多、团队多,而且还有不少流动的厂商及外包人员 所以这里面就有一个规划的问题,包括监控点、日志格式是否统一 目前上述这些都是单打独斗,无整体规划 ...

Wed Aug 14 22:42:00 CST 2019 1 675
系统监控

一 .主流监控工具: Prometheus(https://prometheus.io/docs/introduction/overview/)、 Zabbix(https://www.zabbix.com/) Nagios(https://www.nagios.org/) Cacti ...

Fri Jan 03 02:34:00 CST 2020 0 1604
Prometheus 监控

Prometheus 监控 1、Prometheus 介绍详解 2、Prometheus 安装部署 3、Prometheus 配置文件详解 4、Prometheus PromSQL 常用资源 5、Prometheus 配置采集目标 6、Prometheus ...

Sat Aug 03 17:41:00 CST 2019 0 1228
监控工具

1. 日志搜索:kibana、logstash、Elasticsearch、filebeat 2. 数据库监控:grafana https://pmmdemo.percona.com 3. 服务监控:zabbix grafana 4. tps监控:tcprstat 1. ...

Mon Jul 29 18:44:00 CST 2019 0 406
Nginx监控

Nginx是一个开源、免费、高性能的HTTP和反向代理服务器,也可以用于IMAP/POP3代理服务器。充分利用Nginx的特性,可以有效解决流量高并发请求、cc攻击等问题。 本文探讨了电商场景下Nginx的监控方案,并将使用过程中遇到的问题和解决方案与大家一起分享。 一、对于Nginx你一定 ...

Thu Apr 11 19:36:00 CST 2019 0 3451
Nginx监控

Nginx是一个开源、免费、高性能的HTTP和反向代理服务器,也可以用于IMAP/POP3代理服务器。充分利用Nginx的特性,可以有效解决流量高并发请求、cc攻击等问题。 本文探讨了电商场景下Nginx的监控方案,并将使用过程中遇到的问题和解决方案与大家一起分享。 一、对于Nginx ...

Tue Jun 09 01:23:00 CST 2020 0 636
监控体系

控是整个乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。 目前业界有很多不错的开源产品可供选择。选择一款开源的监控系统,是一个省时省力,效率最高的方案。当然对监控不是很明白的朋友们,看了以下文章可能会对监控整个体系有比较深刻的认识。 ps:本文 ...

Sun Sep 29 05:52:00 CST 2019 0 407
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM