原文:雲原生的彈性 AI 訓練系列之二:PyTorch 1.9.0 彈性分布式訓練的設計與實現

背景 機器學習工作負載與傳統的工作負載相比,一個比較顯著的特點是對 GPU 的需求旺盛。在之前的文章中介紹過 https: mp.weixin.qq.com s Nasm cXLtJObjLwLQHALmw 和 https: mp.weixin.qq.com s X VDynLfKdVp tyciQccyQ ,目前 GPU 的顯存已經不足以跟上模型參數規模的發展。隨着 Transformer 等新 ...

2021-08-25 18:19 0 509 推薦指數:

查看詳情

原生彈性 AI 訓練系列之一:基於 AllReduce 的彈性分布式訓練實踐

引言 隨着模型規模和數據量的不斷增大,分布式訓練已經成為了工業界主流的 AI 模型訓練方式。基於 Kubernetes 的 Kubeflow 項目,能夠很好地承載分布式訓練的工作負載,業已成為了原生 AI 領域的事實標准,在諸多企業內廣泛落地。 盡管 Kubeflow ...

Tue Mar 16 19:47:00 CST 2021 0 333
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM