原文:MLHPC 2016 | Communication Quantization for Data-parallel Training of Deep Neural Networks

本文主要研究HPC上进行数据并行训练的可行性。作者首先在HPC上实现了两种通信量化算法 Bit SGD以及阈值量化 ,然后提出了自适应量化算法以解决它们的缺点。此外,发挥出量化算法的性能,作者还自己实现了一个Allreduce算法。 Bit SGD可以实现良好的重构和较低的误差,但与阈值量化相比,它的计算开销更大,并且压缩率不能达到 倍以上。阈值量化速度很快,但是不同的模型需要设置不同的阈值,而且 ...

2020-04-12 21:08 6 342 推荐指数:

查看详情

《Population Based Training of Neural Networks》论文解读

  很早之前看到这篇文章的时候,觉得这篇文章的思想很朴素,没有让人眼前一亮的东西就没有太在意。之后读到很多Multi-Agent或者并行训练的文章,都会提到这个算法,比如第一视角多人游戏(Quake ...

Wed Mar 13 04:06:00 CST 2019 0 1800
ICLR 2018 | Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training

为了降低大规模分布式训练时的通信开销,作者提出了一种名为深度梯度压缩(Deep Gradient Compression, DGC)的方法。DGC通过稀疏化技术,在每次迭代时只选择发送一部分比较“重要”的梯度元素,以达到降低整个训练过程通信量的目的。为了保证使用DGC后模型的精度,作者还使用了几种 ...

Mon May 25 02:33:00 CST 2020 0 1221
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM