原文:云原生的弹性 AI 训练系列之一:基于 AllReduce 的弹性分布式训练实践

引言 随着模型规模和数据量的不断增大,分布式训练已经成为了工业界主流的 AI 模型训练方式。基于 Kubernetes 的 Kubeflow 项目,能够很好地承载分布式训练的工作负载,业已成为了云原生 AI 领域的事实标准,在诸多企业内广泛落地。 尽管 Kubeflow 让基于 Kubernetes 的大规模分布式训练变得可行,但是云原生的极致弹性 降本增效等特性在人工智能场景下没有得到很好地释放 ...

2021-03-16 11:47 0 333 推荐指数:

查看详情

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM