softmax求導、cross-entropy求導及label smoothing


softmax求導

softmax層的輸出為

其中,表示第L層第j個神經元的輸入,表示第L層第j個神經元的輸出,e表示自然常數。

現在求的導數,

如果j=i,

           1

如果ji,

  2

 

cross-entropy求導

loss function為

softmax層的輸入求導,如下

        

        

         

 

label smoothing

對於ground truth為one-hot的情況,使用模型去擬合這樣的函數具有兩個問題:首先,無法保證模型的泛化能力,容易導致過擬合; 其次,全概率和零概率將鼓勵所屬類別和非所屬類別之間的差距會被盡可能拉大,因為模型太過相信自己的預測了。

為了解決這一問題,使得模型沒有那么肯定,提出了label smoothing。

原ground truth為,添加一個與樣本無關的分布,得到

 

表示預測結果,則loss function為

label smoothing是論文《Rethinking the Inception Architecture for Computer Vision》中提出的,文中表明,使用label smoothing后結果有一定程度的提升。在論文中,,k表示類別,


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM