一、簡化前饋網絡LeNet

import torch as t


class LeNet(t.nn.Module):
    def __init__(self):
        super(LeNet, self).__init__()
        self.features = t.nn.Sequential(
            t.nn.Conv2d(3, 6, 5),
            t.nn.ReLU(),
            t.nn.MaxPool2d(2, 2),
            t.nn.Conv2d(6, 16, 5),
            t.nn.ReLU(),
            t.nn.MaxPool2d(2, 2)
        )
        # 由於調整shape並不是一個class層，
        # 所以在涉及這種操作（非nn.Module操作）需要拆分為多個模型
        self.classifiter = t.nn.Sequential(
            t.nn.Linear(16*5*5, 120),
            t.nn.ReLU(),
            t.nn.Linear(120, 84),
            t.nn.ReLU(),
            t.nn.Linear(84, 10)
        )

    def forward(self, x):
        x = self.features(x)
        x = x.view(-1, 16*5*5)
        x = self.classifiter(x)
        return x

net = LeNet()

二、優化器基本使用方法

建立優化器實例
循環：
1. 清空梯度
2. 向前傳播
3. 計算Loss
4. 反向傳播
5. 更新參數

from torch import optim

# 通常的step優化過程
optimizer = optim.SGD(params=net.parameters(), lr=1)
optimizer.zero_grad()  # net.zero_grad()

input_ = t.autograd.Variable(t.randn(1, 3, 32, 32))
output = net(input_)
output.backward(output)

optimizer.step()

三、網絡模塊參數定制

為不同的子網絡參數不同的學習率，finetune常用，使分類器學習率參數更高，學習速度更快（理論上）。

1.經由構建網絡時划分好的模組進行學習率設定，

# # 直接對不同的網絡模塊制定不同學習率
optimizer = optim.SGD([{'params': net.features.parameters()}, # 默認lr是1e-5
                       {'params': net.classifiter.parameters(), 'lr': 1e-2}], lr=1e-5)

2.以網絡層對象為單位進行分組，並設定學習率

# # 以層為單位，為不同層指定不同的學習率
# ## 提取指定層對象
special_layers = t.nn.ModuleList([net.classifiter[0], net.classifiter[3]])
# ## 獲取指定層參數id
special_layers_params = list(map(id, special_layers.parameters()))
print(special_layers_params)
# ## 獲取非指定層的參數id
base_params = filter(lambda p: id(p) not in special_layers_params, net.parameters())
optimizer = t.optim.SGD([{'params': base_params},
                         {'params': special_layers.parameters(), 'lr': 0.01}], lr=0.001)

四、在訓練中動態的調整學習率

'''調整學習率'''
# 新建optimizer或者修改optimizer.params_groups對應的學習率
# # 新建optimizer更簡單也更推薦，optimizer十分輕量級，所以開銷很小
# # 但是新的優化器會初始化動量等狀態信息，這對於使用動量的優化器（momentum參數的sgd）可能會造成收斂中的震盪
# ## optimizer.param_groups:長度2的list，optimizer.param_groups[0]：長度6的字典
print(optimizer.param_groups[0]['lr'])
old_lr = 0.1
optimizer = optim.SGD([{'params': net.features.parameters()},
                       {'params': net.classifiter.parameters(), 'lr': old_lr*0.1}], lr=1e-5)

可以看到optimizer.param_groups結構，[{'params','lr', 'momentum', 'dampening', 'weight_decay', 'nesterov'},{……}]，集合了優化器的各項參數。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Pytorch torch.optim優化器個性化使用 PyTorch官方中文文檔：torch.optim 優化器參數 torch.optim優化算法理解之optim.Adam() torch.optim用法（參數組的設置） torch.optim.Adam優化器參數學習 torch.optim.SGD torch.optim.SGD()各參數的解釋 torch.optim.SGD參數詳解 Pytorch：優化器 pytorch構建優化器