原文:雲原生的彈性 AI 訓練系列之三:借助彈性伸縮的 Jupyter Notebook,大幅提高 GPU 利用率

Jupyter Notebooks 在 Kubernetes 上部署往往需要綁定一張 GPU,而大多數時候 GPU 並沒有被使用,因此利用率低下。為了解決這一問題,我們開源了 elastic jupyter operator,將占用 GPU 的 Kernel 組件單獨部署,在長期空閑的情況下自動回收,釋放占用的 GPU。這篇文章主要介紹了這一開源項目的使用方式以及工作原理。 Jupyter No ...

2021-10-18 16:28 0 807 推薦指數:

查看詳情

原生彈性 AI 訓練系列之一:基於 AllReduce 的彈性分布式訓練實踐

引言 隨着模型規模和數據量的不斷增大,分布式訓練已經成為了工業界主流的 AI 模型訓練方式。基於 Kubernetes 的 Kubeflow 項目,能夠很好地承載分布式訓練的工作負載,業已成為了原生 AI 領域的事實標准,在諸多企業內廣泛落地。 盡管 Kubeflow ...

Tue Mar 16 19:47:00 CST 2021 0 333
提高GPU利用率

如何提高GPU利用率(更新中) 核心宗旨:通過調整網絡結構,batcsize大小,worker 數量,讓數據讀取的時間與網絡前向傳播和反向更新時間大致相同 一般的瓶頸就在 I/O 上面,因此可以預先把很多圖片、特征等小文件存儲到 LMDB 數據庫,加快磁盤 I/O 速度,工具傳送門 ...

Tue Sep 01 01:37:00 CST 2020 0 900
TensorFlow如何提高GPU訓練效率和利用率

前言 首先,如果你現在已經很熟悉tf.data+estimator了,可以把文章x掉了╮( ̄▽ ̄””)╭ 但是!如果現在還是在進行session.run(..)的話!尤其是苦惱於GPU顯存都塞滿了利用率卻上不去的童鞋,這篇文章或許可以給你打開新世界的大門噢( ̄∇ ̄) 如果發現經過一系列改良后 ...

Mon Nov 11 05:46:00 CST 2019 0 4617
成本降低40%、資源利用率提高20%的 AI 應用產品原生容器化之路

作者 郭雲龍,騰訊高級工程師,目前就職於 CSIG 產品三部-AI 應用產品中心,現負責中心后台業務框架開發。 導語 為了滿足 AI 能力在公有 SaaS 場景下,服務和模型需要快速迭代交付的需求,保障服務在不穩定高並發時的高成功率,以及進一步提升資源利用率AI 應用產品中心進行了 ...

Thu Sep 23 02:03:00 CST 2021 0 138
阿里雲系列(六)彈性伸縮

阿里雲系列(六)彈性伸縮 阿里項目實戰工程師 Mr.su執教筆記(QQ:491537692) --私人課件,不出版,不公開,禁止傳播 想做好運維工作,人先要學會勤快; 居安思危,勤記而補拙,方可不斷提高; 別人的資料用的再爽也是別人的; 自己總結的東西是你自身特有的一種 ...

Wed Sep 22 01:32:00 CST 2021 0 117
資源利用率提高67%,騰訊實時風控平台原生容器化之路

導語 隨着部門在業務安全領域的不斷拓展,圍繞着驗證碼、金融廣告等服務場景,騰訊水滴作為支撐業務安全對抗的實時風控系統,上線的任務實時性要求越來越高,需要支撐的業務請求量也隨之增加。對於業務快速上線和資源快速擴縮容的需求,且公司自研上項目往全面容器化上方向推進,水滴風控平台開始進行自研上 ...

Sat Aug 21 02:03:00 CST 2021 0 148
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM