原文:雲原生的彈性 AI 訓練系列之一:基於 AllReduce 的彈性分布式訓練實踐

引言 隨着模型規模和數據量的不斷增大,分布式訓練已經成為了工業界主流的 AI 模型訓練方式。基於 Kubernetes 的 Kubeflow 項目,能夠很好地承載分布式訓練的工作負載,業已成為了雲原生 AI 領域的事實標准,在諸多企業內廣泛落地。 盡管 Kubeflow 讓基於 Kubernetes 的大規模分布式訓練變得可行,但是雲原生的極致彈性 降本增效等特性在人工智能場景下沒有得到很好地釋放 ...

2021-03-16 11:47 0 333 推薦指數:

查看詳情

 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM