Deep Residual Learning for Image Recognition(殘差網絡)


深度在神經網絡中有及其重要的作用,但越深的網絡越難訓練。

隨着深度的增加,從訓練一開始,梯度消失或梯度爆炸就會阻止收斂,normalized initialization和intermediate normalization能夠解決這個問題。但依舊會出現degradation problem:隨着深度的增加,准確率會達到飽和,再持續增加深度則會導致准確率下降。這個問題不是由於過擬合造成的,因為訓練誤差也會隨着深度增加而增大。

假定輸入是x,期望輸出是H(x),如果我們直接把輸入x傳到輸出作為初始結果,那么我們需要學習的目標就是F(X)=H(x)-x。Resnet相當於將學習目標改變了,不再是學習一個完整的輸出H(x),而是H(x)-x,即殘差。

Shortcut connections:跳過一層或更多層。在論文中,short connection執行identity mapping,把之前層的outputs加到這些stacked layers的outputs,這既不會增加額外的參數也不會增加計算的復雜度。

論文中將plain network和residual network做比較,residual只是比plain多了一個shortcut connection。residual network解決了degradation。

DRN,deep residual network,同時解決了梯度消失問題。

如果增加的層能夠增加identity mapping,更深的網絡應該不會比對應的淺層網絡的訓練誤差大。如果identity mapping是最優的,訓練會驅使增加的非線性層的weight趨於0以靠近identity mapping。這是殘差網絡的思想。

 

使用resnet101層作為目標檢測的特征提取層時,不是選擇100層作為目標檢測的特征提取層,而是選擇前91層,因為前91層的total strides是16pixels

 

 

 

http://blog.csdn.net/junmuzi/article/details/53099819

http://blog.csdn.net/u014114990/article/details/50505331


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM