torch.optim.SGD()各參數的解釋

本文轉載自查看原文 2020-06-26 11:53 27989 機器學習

看pytorch中文文檔摘抄的筆記。

class torch.optim.SGD(params, lr=, momentum=0, dampening=0, weight_decay=0, nesterov=False)[source]

實現隨機梯度下降算法（momentum可選）。

Nesterov動量基於On the importance of initialization and momentum in deep learning中的公式.

參數：

params (iterable) – 待優化參數的iterable或者是定義了參數組的dict
lr (float) – 學習率
momentum (float, 可選) – 動量因子（默認：0）
weight_decay (float, 可選) – 權重衰減（L2懲罰）（默認：0）
dampening (float, 可選) – 動量的抑制因子（默認：0）
nesterov (bool, 可選) – 使用Nesterov動量（默認：False）

例子：

>>> optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9) >>> optimizer.zero_grad() >>> loss_fn(model(input), target).backward() >>> optimizer.step()

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 torch.optim.SGD參數詳解 torch.optim.SGD torch.optim用法（參數組的設置） torch.optim.Adam優化器參數學習 PyTorch官方中文文檔：torch.optim 優化器參數 torch.optim優化算法理解之optim.Adam() (三) DP-SGD 算法解釋『PyTorch』第十一彈_torch.optim優化器 Pytorch torch.optim優化器個性化使用調整學習率-torch.optim.lr_scheduler.MultiStepLR（）方法