PyTorch中MSELoss的使用
參數
torch.nn.MSELoss(size_average=None, reduce=None, reduction: str = 'mean')
size_average
和reduce
在當前版本的pytorch已經不建議使用了,只設置reduction
就行了。
reduction
的可選參數有:'none'
、'mean'
、'sum'
reduction='none'
:求所有對應位置的差的平方,返回的仍然是一個和原來形狀一樣的矩陣。
reduction='mean'
:求所有對應位置差的平方的均值,返回的是一個標量。
reduction='sum'
:求所有對應位置差的平方的和,返回的是一個標量。
舉例
首先假設有三個數據樣本分別經過神經網絡運算,得到三個輸出與其標簽分別是:
y_pre = torch.Tensor([[1, 2, 3],
[2, 1, 3],
[3, 1, 2]])
y_label = torch.Tensor([[1, 0, 0],
[0, 1, 0],
[0, 0, 1]])
如果reduction='none'
:
criterion1 = nn.MSELoss(reduction='none')
loss1 = criterion1(x, y)
print(loss1)
則輸出:
tensor([[0., 4., 9.],
[4., 0., 9.],
[9., 1., 1.]])
如果reduction='mean'
:
criterion2 = nn.MSELoss(reduction='mean')
loss2 = criterion2(x, y)
print(loss2)
則輸出:
tensor(4.1111)
如果reduction='sum'
:
criterion3 = nn.MSELoss(reduction='sum')
loss3 = criterion3(x, y)
print(loss3)
則輸出:
tensor(37.)
在反向傳播時的使用
一般在反向傳播時,都是先求loss
,再使用loss.backward()
求loss
對每個參數 w_ij
和b
的偏導數(也可以理解為梯度)。
這里要注意的是,只有標量才能執行backward()
函數,因此在反向傳播中reduction
不能設為'none'
。
但具體設置為'sum'
還是'mean'
都是可以的。
若設置為'sum'
,則有Loss=loss_1+loss_2+loss_3
,表示總的Loss
由每個實例的loss_i
構成,在通過Loss
求梯度時,將每個loss_i
的梯度也都考慮進去了。
若設置為'mean'
,則相比'sum'
相當於Loss
變成了Loss*(1/i)
,這在參數更新時影響不大,因為有學習率a
的存在。