原文:在 Kubernetes 上弹性深度学习训练利器 -- Elastic Training Operator

作者 徐晓舟 萧元 来源 阿里巴巴云原生公众号 背景 由于云计算在资源成本和弹性扩容方面的天然优势,越来越多客户愿意在云上构建 AI 系统,而以容器 Kubernetes 为代表的云原生技术,已经成为释放云价值的最短路径, 在云上基于 Kubernetes 构建 AI 平台已经成为趋势。 当面临较复杂的模型训练或者数据量大时,单机的计算能力往往无法满足算力要求。通过使用阿里的 AiACC 或者社 ...

2021-02-19 14:16 0 304 推荐指数:

查看详情

使用 GPU-Operator 与 KubeSphere 简化深度学习训练与 GPU 监控

本文将从 GPU-Operator 概念介绍、安装部署、深度训练测试应用部署,以及在 KubeSphere 使用自定义监控面板对接 GPU 监控,从原理到实践,逐步浅析介绍与实践 GPU-Operator。 GPU-Operator简介 众所周知,Kubernetes 平台通过设备插件框架提供 ...

Fri Mar 05 02:24:00 CST 2021 0 348
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM