原文:云原生的弹性 AI 训练系列之三:借助弹性伸缩的 Jupyter Notebook,大幅提高 GPU 利用率

Jupyter Notebooks 在 Kubernetes 上部署往往需要绑定一张 GPU,而大多数时候 GPU 并没有被使用,因此利用率低下。为了解决这一问题,我们开源了 elastic jupyter operator,将占用 GPU 的 Kernel 组件单独部署,在长期空闲的情况下自动回收,释放占用的 GPU。这篇文章主要介绍了这一开源项目的使用方式以及工作原理。 Jupyter No ...

2021-10-18 16:28 0 807 推荐指数:

查看详情

原生弹性 AI 训练系列之一:基于 AllReduce 的弹性分布式训练实践

引言 随着模型规模和数据量的不断增大,分布式训练已经成为了工业界主流的 AI 模型训练方式。基于 Kubernetes 的 Kubeflow 项目,能够很好地承载分布式训练的工作负载,业已成为了原生 AI 领域的事实标准,在诸多企业内广泛落地。 尽管 Kubeflow ...

Tue Mar 16 19:47:00 CST 2021 0 333
提高GPU利用率

如何提高GPU利用率(更新中) 核心宗旨:通过调整网络结构,batcsize大小,worker 数量,让数据读取的时间与网络前向传播和反向更新时间大致相同 一般的瓶颈就在 I/O 上面,因此可以预先把很多图片、特征等小文件存储到 LMDB 数据库,加快磁盘 I/O 速度,工具传送门 ...

Tue Sep 01 01:37:00 CST 2020 0 900
TensorFlow如何提高GPU训练效率和利用率

前言 首先,如果你现在已经很熟悉tf.data+estimator了,可以把文章x掉了╮( ̄▽ ̄””)╭ 但是!如果现在还是在进行session.run(..)的话!尤其是苦恼于GPU显存都塞满了利用率却上不去的童鞋,这篇文章或许可以给你打开新世界的大门噢( ̄∇ ̄) 如果发现经过一系列改良后 ...

Mon Nov 11 05:46:00 CST 2019 0 4617
成本降低40%、资源利用率提高20%的 AI 应用产品原生容器化之路

作者 郭云龙,腾讯高级工程师,目前就职于 CSIG 产品三部-AI 应用产品中心,现负责中心后台业务框架开发。 导语 为了满足 AI 能力在公有 SaaS 场景下,服务和模型需要快速迭代交付的需求,保障服务在不稳定高并发时的高成功率,以及进一步提升资源利用率AI 应用产品中心进行了 ...

Thu Sep 23 02:03:00 CST 2021 0 138
阿里云系列(六)弹性伸缩

阿里云系列(六)弹性伸缩 阿里项目实战工程师 Mr.su执教笔记(QQ:491537692) --私人课件,不出版,不公开,禁止传播 想做好运维工作,人先要学会勤快; 居安思危,勤记而补拙,方可不断提高; 别人的资料用的再爽也是别人的; 自己总结的东西是你自身特有的一种 ...

Wed Sep 22 01:32:00 CST 2021 0 117
资源利用率提高67%,腾讯实时风控平台原生容器化之路

导语 随着部门在业务安全领域的不断拓展,围绕着验证码、金融广告等服务场景,腾讯水滴作为支撑业务安全对抗的实时风控系统,上线的任务实时性要求越来越高,需要支撑的业务请求量也随之增加。对于业务快速上线和资源快速扩缩容的需求,且公司自研上项目往全面容器化上方向推进,水滴风控平台开始进行自研上 ...

Sat Aug 21 02:03:00 CST 2021 0 148
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM