在遷移學習中我們經常會用到預訓練模型,並在預訓練模型的基礎上添加額外層。訓練時先將預訓練層參數固定,只訓練額外添加的部分。完了之后再全部訓練微調。
在pytorch 固定部分參數訓練時需要在優化器中施加過濾。
需要自己過濾
optimizer.SGD(filter(lambda p: p.requires_grad, model.parameters()), lr=1e-3)
另外,如果是Variable,則可以初始化時指定
j = Variable(torch.randn(5,5), requires_grad=True)
但是如果是(神經網絡層)
m = nn.Linear(10,10)
是沒有requires_grad傳入的,m.requires_grad也沒有,需要
for i in m.parameters(): i.requires_grad=False
另外一個小技巧就是在nn.Module里,可以在中間插入這個
for p in self.parameters(): p.requires_grad=False
這樣前面的參數就是False,而后面的不變
class Net(nn.Module): def __init__(self): super(Net, self).__init__() self.conv1 = nn.Conv2d(1, 6, 5) self.conv2 = nn.Conv2d(6, 16, 5) for p in self.parameters(): p.requires_grad=False self.fc1 = nn.Linear(16 * 5 * 5, 120) self.fc2 = nn.Linear(120, 84) self.fc3 = nn.Linear(84, 10)
1 class RESNET_attention(nn.Module): 2 def __init__(self, model, pretrained): 3 super(RESNET_attetnion, self).__init__() 4 self.resnet = model(pretrained) 5 for p in self.parameters(): 6 p.requires_grad = False 7 self.f = nn.Conv2d(2048, 512, 1) 8 self.g = nn.Conv2d(2048, 512, 1) 9 self.h = nn.Conv2d(2048, 2048, 1) 10 self.softmax = nn.Softmax(-1) 11 self.gamma = nn.Parameter(torch.FloatTensor([0.0])) 12 self.avgpool = nn.AvgPool2d(7, stride=1) 13 self.resnet.fc = nn.Linear(2048, 10)
note:以上代碼復現SAGAN的Attention部分,這不是主要問題
這樣就將for循環以上的參數固定, 只訓練下面的參數(f,g,h,gamma,fc,等), 但是注意需要在optimizer中添加上這樣的一句話filter(lambda p: p.requires_grad, model.parameters()
添加的位置為:
optimizer = optim.Adam(filter(lambda p: p.requires_grad, model.parameters()), lr=0.0001, betas=(0.9, 0.999), eps=1e-08, weight_decay=1e-5)
原文:
[1] https://blog.csdn.net/guotong1988/article/details/79739775
[2] https://blog.csdn.net/weixin_34261739/article/details/87555871