之前用的adam優化器一直是這樣的:
alpha_optim = torch.optim.Adam(model.alphas(), config.alpha_lr, betas=(0.5, 0.999),
weight_decay=config.alpha_weight_decay)
沒有細想內部參數的問題,但是最近的工作中是要讓優化器中的部分參數參與梯度更新,其余部分不更新,由於weight_decay參數的存在,會讓model.alphas都有所變化,所以想要真正部分參數
參與更新,則要關掉weight_decay