標簽平滑(label smoothing)的通俗理解


具體公式和思想可以看

https://www.cnblogs.com/itmorn/p/11254448.html

先說結果:說白了,這個平滑就是一定程度縮小label中min和max的差距,label平滑可以減小過擬合。

  深度學習中的損失函數Loss實際上就是鼓勵模型去接近對應的label,越接近loss越小,巴不得label為1的時候output是0.999。。。

但是這樣真的好嗎?或者說,是不是太過了,尤其針對像交叉熵這類loss,一旦output有些偏差,loss值就往無窮大走了,就逼迫模型去接近真實的label。

  萬一好不容易接近label了,結果這條training data還是錯的(是很有可能的),或者training data並沒有完整覆蓋所有類型,那就必須過擬合了,好比拼命學會的公式如果本來就是錯的,或者你做了100道學習三角函數的題目,結果就做了2題幾何題,那等你考試(test data)時候遇到幾何題老想着把三角函數思想帶入,那肯定得崩。

  所以,適當調整label,讓兩端的極值往中間湊湊,可以增加泛化性能

  對於DL:過猶不及,90就優秀了,為啥還要追求100?

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM