原文:云原生的弹性 AI 训练系列之二:PyTorch 1.9.0 弹性分布式训练的设计与实现

背景 机器学习工作负载与传统的工作负载相比,一个比较显著的特点是对 GPU 的需求旺盛。在之前的文章中介绍过 https: mp.weixin.qq.com s Nasm cXLtJObjLwLQHALmw 和 https: mp.weixin.qq.com s X VDynLfKdVp tyciQccyQ ,目前 GPU 的显存已经不足以跟上模型参数规模的发展。随着 Transformer 等新 ...

2021-08-25 18:19 0 509 推荐指数:

查看详情

原生弹性 AI 训练系列之一:基于 AllReduce 的弹性分布式训练实践

引言 随着模型规模和数据量的不断增大,分布式训练已经成为了工业界主流的 AI 模型训练方式。基于 Kubernetes 的 Kubeflow 项目,能够很好地承载分布式训练的工作负载,业已成为了原生 AI 领域的事实标准,在诸多企业内广泛落地。 尽管 Kubeflow ...

Tue Mar 16 19:47:00 CST 2021 0 333
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM