引言 隨着模型規模和數據量的不斷增大,分布式訓練已經成為了工業界主流的 AI 模型訓練方式。基於 Kubernetes 的 Kubeflow 項目,能夠很好地承載分布式訓練的工作負載,業已成為了雲原生 AI 領域的事實標准,在諸多企業內廣泛落地。 盡管 Kubeflow ...
背景 機器學習工作負載與傳統的工作負載相比,一個比較顯著的特點是對 GPU 的需求旺盛。在之前的文章中介紹過 https: mp.weixin.qq.com s Nasm cXLtJObjLwLQHALmw 和 https: mp.weixin.qq.com s X VDynLfKdVp tyciQccyQ ,目前 GPU 的顯存已經不足以跟上模型參數規模的發展。隨着 Transformer 等新 ...
2021-08-25 18:19 0 509 推薦指數:
引言 隨着模型規模和數據量的不斷增大,分布式訓練已經成為了工業界主流的 AI 模型訓練方式。基於 Kubernetes 的 Kubeflow 項目,能夠很好地承載分布式訓練的工作負載,業已成為了雲原生 AI 領域的事實標准,在諸多企業內廣泛落地。 盡管 Kubeflow ...
[源碼解析] PyTorch 分布式之彈性訓練(6)---監控/容錯 目錄 [源碼解析] PyTorch 分布式之彈性訓練(6)---監控/容錯 0x00 摘要 0x01 總體邏輯 1.1 Node集群角度 ...
[源碼解析] PyTorch 分布式之彈性訓練(5)---Rendezvous 引擎 目錄 [源碼解析] PyTorch 分布式之彈性訓練(5)---Rendezvous 引擎 0x00 摘要 0x01 前言 1.1 總體 ...
[源碼解析] PyTorch 分布式之彈性訓練(3)---代理 目錄 [源碼解析] PyTorch 分布式之彈性訓練(3)---代理 0x00 摘要 0x01 總體背景 1.1 功能分離 1.2 ...
[源碼解析] PyTorch 分布式之彈性訓練(1) --- 總體思路 目錄 [源碼解析] PyTorch 分布式之彈性訓練(1) --- 總體思路 0x00 摘要 0x01 痛點 0x02 難點 0x03 TorchElastic ...
Jupyter Notebooks 在 Kubernetes 上部署往往需要綁定一張 GPU,而大多數時候 GPU 並沒有被使用,因此利用率低下。為了解決這一問題,我們開源了 elastic-j ...
[源碼解析] PyTorch 分布式之彈性訓練(2)---啟動&單節點流程 目錄 [源碼解析] PyTorch 分布式之彈性訓練(2)---啟動&單節點流程 0x00 摘要 0x01 重要概念 0x02 分布式運行 ...
[源碼解析] PyTorch 分布式之彈性訓練(4)---Rendezvous 架構和邏輯 目錄 [源碼解析] PyTorch 分布式之彈性訓練(4)---Rendezvous 架構和邏輯 0x00 摘要 0x01 總體背景 0x02 ...