原文:在 Kubernetes 上彈性深度學習訓練利器 -- Elastic Training Operator

作者 徐曉舟 蕭元 來源 阿里巴巴雲原生公眾號 背景 由於雲計算在資源成本和彈性擴容方面的天然優勢,越來越多客戶願意在雲上構建 AI 系統,而以容器 Kubernetes 為代表的雲原生技術,已經成為釋放雲價值的最短路徑, 在雲上基於 Kubernetes 構建 AI 平台已經成為趨勢。 當面臨較復雜的模型訓練或者數據量大時,單機的計算能力往往無法滿足算力要求。通過使用阿里的 AiACC 或者社 ...

2021-02-19 14:16 0 304 推薦指數:

查看詳情

使用 GPU-Operator 與 KubeSphere 簡化深度學習訓練與 GPU 監控

本文將從 GPU-Operator 概念介紹、安裝部署、深度訓練測試應用部署,以及在 KubeSphere 使用自定義監控面板對接 GPU 監控,從原理到實踐,逐步淺析介紹與實踐 GPU-Operator。 GPU-Operator簡介 眾所周知,Kubernetes 平台通過設備插件框架提供 ...

Fri Mar 05 02:24:00 CST 2021 0 348
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM