原文:NeurIPS 2017 | QSGD: Communication-Efficient SGD via Gradient Quantization and Encoding

由于良好的可扩展性,随机梯度下降 SGD 的并行实现是最近研究的热点。实现并行化SGD的关键障碍就是节点间梯度更新时的高带宽开销。因此,研究者们提出了一些启发式的梯度压缩方法,使得节点间只传输压缩后的梯度。尽管这些启发式方法在实践中很有效,但它们有时并不会收敛。 本文提出了量化SGD Quantization SGD,QSGD ,它是一类具有收敛保证且在实践中性能良好的压缩模式。QSGD允许用户平 ...

2020-03-24 19:08 1 1283 推荐指数:

查看详情

ICLR 2018 | Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training

为了降低大规模分布式训练时的通信开销,作者提出了一种名为深度梯度压缩(Deep Gradient Compression, DGC)的方法。DGC通过稀疏化技术,在每次迭代时只选择发送一部分比较“重要”的梯度元素,以达到降低整个训练过程通信量的目的。为了保证使用DGC后模型的精度,作者还使用了几种 ...

Mon May 25 02:33:00 CST 2020 0 1221
MLHPC 2016 | Communication Quantization for Data-parallel Training of Deep Neural Networks

本文主要研究HPC上进行数据并行训练的可行性。作者首先在HPC上实现了两种通信量化算法(1 Bit SGD以及阈值量化),然后提出了自适应量化算法以解决它们的缺点。此外,发挥出量化算法的性能,作者还自己实现了一个Allreduce算法。 1 Bit SGD可以实现良好的重构和较低的误差,但与阈值 ...

Mon Apr 13 05:08:00 CST 2020 6 342
逻辑回归:使用SGD(Stochastic Gradient Descent)进行大规模机器学习

Mahout学习算法训练模型 mahout提供了许多分类算法,但许多被设计来处理非常大的数据集,因此可能会有点麻烦。另一方面,有些很容易上手,因为,虽然依然可扩展性,它们具有低开销小的数据集。这样一个低开销的方法是随机梯度下降(SGD)算法,Logistic回归。该算 ...

Tue Sep 03 23:29:00 CST 2013 0 13593
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM