背景 機器學習工作負載與傳統的工作負載相比,一個比較顯著的特點是對 GPU 的需求旺盛。在之前的文章中介紹過(https://mp.weixin.qq.com/s/Nasm-cXLtJObjLwLQ ...
引言 隨着模型規模和數據量的不斷增大,分布式訓練已經成為了工業界主流的 AI 模型訓練方式。基於 Kubernetes 的 Kubeflow 項目,能夠很好地承載分布式訓練的工作負載,業已成為了雲原生 AI 領域的事實標准,在諸多企業內廣泛落地。 盡管 Kubeflow 讓基於 Kubernetes 的大規模分布式訓練變得可行,但是雲原生的極致彈性 降本增效等特性在人工智能場景下沒有得到很好地釋放 ...
2021-03-16 11:47 0 333 推薦指數:
背景 機器學習工作負載與傳統的工作負載相比,一個比較顯著的特點是對 GPU 的需求旺盛。在之前的文章中介紹過(https://mp.weixin.qq.com/s/Nasm-cXLtJObjLwLQ ...
Jupyter Notebooks 在 Kubernetes 上部署往往需要綁定一張 GPU,而大多數時候 GPU 並沒有被使用,因此利用率低下。為了解決這一問題,我們開源了 elastic-j ...
[源碼解析] PyTorch 分布式之彈性訓練(6)---監控/容錯 目錄 [源碼解析] PyTorch 分布式之彈性訓練(6)---監控/容錯 0x00 摘要 0x01 總體邏輯 1.1 Node集群角度 ...
[源碼解析] PyTorch 分布式之彈性訓練(3)---代理 目錄 [源碼解析] PyTorch 分布式之彈性訓練(3)---代理 0x00 摘要 0x01 總體背景 1.1 功能分離 1.2 ...
[源碼解析] PyTorch 分布式之彈性訓練(1) --- 總體思路 目錄 [源碼解析] PyTorch 分布式之彈性訓練(1) --- 總體思路 0x00 摘要 0x01 痛點 0x02 難點 0x03 TorchElastic ...
[源碼解析] PyTorch 分布式之彈性訓練(5)---Rendezvous 引擎 目錄 [源碼解析] PyTorch 分布式之彈性訓練(5)---Rendezvous 引擎 0x00 摘要 0x01 前言 1.1 總體 ...
[源碼解析] 深度學習分布式訓練框架 horovod (12) --- 彈性訓練總體架構 目錄 [源碼解析] 深度學習分布式訓練框架 horovod (12) --- 彈性訓練總體架構 0x00 摘要 0x01 總述 1.1 ...
[源碼解析] 深度學習分布式訓練框架 horovod (14) --- 彈性訓練發現節點 & State 目錄 [源碼解析] 深度學習分布式訓練框架 horovod (14) --- 彈性訓練發現節點 & State 0x00 摘要 ...