深度在神經網絡中有及其重要的作用,但越深的網絡越難訓練。
隨着深度的增加,從訓練一開始,梯度消失或梯度爆炸就會阻止收斂,normalized initialization和intermediate normalization能夠解決這個問題。但依舊會出現degradation problem:隨着深度的增加,准確率會達到飽和,再持續增加深度則會導致准確率下降。這個問題不是由於過擬合造成的,因為訓練誤差也會隨着深度增加而增大。
假定輸入是x,期望輸出是H(x),如果我們直接把輸入x傳到輸出作為初始結果,那么我們需要學習的目標就是F(X)=H(x)-x。Resnet相當於將學習目標改變了,不再是學習一個完整的輸出H(x),而是H(x)-x,即殘差。
Shortcut connections:跳過一層或更多層。在論文中,short connection執行identity mapping,把之前層的outputs加到這些stacked layers的outputs,這既不會增加額外的參數也不會增加計算的復雜度。
論文中將plain network和residual network做比較,residual只是比plain多了一個shortcut connection。residual network解決了degradation。
DRN,deep residual network,同時解決了梯度消失問題。
如果增加的層能夠增加identity mapping,更深的網絡應該不會比對應的淺層網絡的訓練誤差大。如果identity mapping是最優的,訓練會驅使增加的非線性層的weight趨於0以靠近identity mapping。這是殘差網絡的思想。
使用resnet101層作為目標檢測的特征提取層時,不是選擇100層作為目標檢測的特征提取層,而是選擇前91層,因為前91層的total strides是16pixels
http://blog.csdn.net/junmuzi/article/details/53099819
http://blog.csdn.net/u014114990/article/details/50505331
