原文:Horovod 分布式深度学习框架相关

最近需要 Horovod 相关的知识,在这里记录一下,进行备忘: 分布式训练,分为数据并行和模型并行两种 模型并行:分布式系统中的不同GPU负责网络模型的不同部分。神经网络模型的不同网络层被分配到不同的GPU或者同一层内部的不同参数被分配到不同的GPU之上 数据并行:不同的GPU有同一个模型的多个副本,每个GPU分配到不同的数据,然后将所有的GPU的结果按照某种方式合并 不同的GPU,可以是同一台 ...

2019-11-15 18:45 0 598 推荐指数:

查看详情

使用horovod构建分布式深度学习框架

  最近一直在尝试着分布式深度学习的架构,主要的原因一方面是几台机子全是1060卡,利用深度网络在较大数据样本上训练的效率极其低下,所以尝试着将几台机子做成分布式,看看能否提高训练效率;第二方面是有人习惯使用tensorflow,有人习惯使用keras,也有人喜欢使用pytorch等,虽然这些框架 ...

Thu Dec 12 06:11:00 CST 2019 2 708
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM