softmax求導
softmax層的輸出為
其中,表示第L層第j個神經元的輸入,
表示第L層第j個神經元的輸出,e表示自然常數。
現在求對
的導數,
如果j=i,
1
如果ji,
2
cross-entropy求導
loss function為
對softmax層的輸入求導,如下
label smoothing
對於ground truth為one-hot的情況,使用模型去擬合這樣的函數具有兩個問題:首先,無法保證模型的泛化能力,容易導致過擬合; 其次,全概率和零概率將鼓勵所屬類別和非所屬類別之間的差距會被盡可能拉大,因為模型太過相信自己的預測了。
為了解決這一問題,使得模型沒有那么肯定,提出了label smoothing。
原ground truth為,添加一個與樣本無關的分布
,得到
用表示預測結果,則loss function為
label smoothing是論文《Rethinking the Inception Architecture for Computer Vision》中提出的,文中表明,使用label smoothing后結果有一定程度的提升。在論文中,,k表示類別,
。