原文:NeurIPS 2017 | QSGD: Communication-Efficient SGD via Gradient Quantization and Encoding

由於良好的可擴展性,隨機梯度下降 SGD 的並行實現是最近研究的熱點。實現並行化SGD的關鍵障礙就是節點間梯度更新時的高帶寬開銷。因此,研究者們提出了一些啟發式的梯度壓縮方法,使得節點間只傳輸壓縮后的梯度。盡管這些啟發式方法在實踐中很有效,但它們有時並不會收斂。 本文提出了量化SGD Quantization SGD,QSGD ,它是一類具有收斂保證且在實踐中性能良好的壓縮模式。QSGD允許用戶平 ...

2020-03-24 19:08 1 1283 推薦指數:

查看詳情

ICLR 2018 | Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training

為了降低大規模分布式訓練時的通信開銷,作者提出了一種名為深度梯度壓縮(Deep Gradient Compression, DGC)的方法。DGC通過稀疏化技術,在每次迭代時只選擇發送一部分比較“重要”的梯度元素,以達到降低整個訓練過程通信量的目的。為了保證使用DGC后模型的精度,作者還使用了幾種 ...

Mon May 25 02:33:00 CST 2020 0 1221
MLHPC 2016 | Communication Quantization for Data-parallel Training of Deep Neural Networks

本文主要研究HPC上進行數據並行訓練的可行性。作者首先在HPC上實現了兩種通信量化算法(1 Bit SGD以及閾值量化),然后提出了自適應量化算法以解決它們的缺點。此外,發揮出量化算法的性能,作者還自己實現了一個Allreduce算法。 1 Bit SGD可以實現良好的重構和較低的誤差,但與閾值 ...

Mon Apr 13 05:08:00 CST 2020 6 342
邏輯回歸:使用SGD(Stochastic Gradient Descent)進行大規模機器學習

Mahout學習算法訓練模型 mahout提供了許多分類算法,但許多被設計來處理非常大的數據集,因此可能會有點麻煩。另一方面,有些很容易上手,因為,雖然依然可擴展性,它們具有低開銷小的數據集。這樣一個低開銷的方法是隨機梯度下降(SGD)算法,Logistic回歸。該算 ...

Tue Sep 03 23:29:00 CST 2013 0 13593
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM