多任務學習的多個loss應該如何權衡


超級有用!

從上圖的方程可以看出:

1、loss大則梯度更新量也大;

2、不同任務的loss差異大導致模型更新不平衡的本質原因在於梯度大小;

3、通過調整不同任務的loss權重wi可以改善這個問題;

4、直接對不同任務的梯度進行處理也可以改善這個問題;

所以,后續的方法大體分為兩類:

1、在權重wi上做文章;

2、在梯度上做文章

2、Grad Norm

梯度歸一化的主要目的在於希望不同任務任務對應的梯度具有相似的大小,從而控制多任務網絡的訓練。通過這樣做,我們鼓勵網絡以相同的速度學習所有的任務。grad norm本身不focus於不同任務之間的權重,而是將所有任務等同視之,只是希望所有任務的更新能夠相對接近從而避免了某個任務收斂了,某個任務還在收斂的路上的問題,這樣會導致:

1、模型訓練的效率低,最終運行時間由最復雜的任務決定;

2、復雜任務收斂的過程中,簡單任務的局部最優權重可能會變差;


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM