---恢復內容開始---
景
(1)為什么殘差學習的效果會如此好?與其他論文相比,深度殘差學習具有更深的網絡結構,此外,殘差學習也是網絡變深的原因,為什么網絡深度如此重要?
解答:一般認為神經網絡的每一層分別對應於提取不同層次的特征信息,有低層,中層和高層,而網絡越深的時候,提取到的不同層次的信息會越多,而不同的層次信息的組合也會越多。
(2)為什么在殘差之前網絡的深度最深的也只是GoogleNet的22層,而殘差卻可以達到152層,甚至1000層?
解答:深度學習對於網絡深度遇到的主要問題是梯度消失和梯度爆炸,傳統對應的解決方案則是數據的初始化和正則化,但是這樣雖然解決了梯度的問題,深度加深了,卻帶來了另外的問題,就是網絡性能的退化問題,深度加深了,錯誤率卻上升了,而殘差用來設計解決退化問題,其同時也解決了梯度問題,更使得網絡的性能也提升了。
圖1 傳統解決多層網絡訓練梯度問題的方法
我們注意到,隨着網絡層數的增加,傳統解決方法會導致誤差增大的趨勢,對於更深層次的網絡,甚至無法解決。
圖2 殘差網絡的基本架構
其工作原理:是將傳統網絡的平滑連接成分(導致了網絡模型的誤差)送進了殘差網絡模型,達到減小誤差,提高精確率的目的。
2、深度殘差學習
深度殘差學習,其中又分為了三個小部分包括殘差元,為什么是恆等映射?如果快捷映射不是恆等映射的情況?
圖3 殘差網絡的構思
對於普通網絡,任意堆疊的兩層網絡,我們希望找到的是一個映射H(X)對應的殘差元,我們添加一個快捷連接,從輸入到輸出,這里的快捷連接默認為恆等映射,此時的問題就從尋找映射H(X)到F(X);這里類似於在數學上,你直接去解一個方程較為復雜,你就把他分解為兩個簡單問題和的形式,分別去解決,類似於啟發式求解的思想。
圖4 殘差網絡的設計
因此,對應於殘差的初始定義,在統計學中,為實際觀測值與估計值(擬合值)的差值,這里則是直接的映射H(X)與快捷連接x的差值。
2.1殘差網絡
對於殘差元的主要設計有兩個,快捷鏈接和恆等映射,快捷鏈接使得殘差變得可能,而恆等映射使得網絡變深,而恆等映射主要有兩個:快捷連接為恆等映射和相加后的激活函數
圖5 殘差網絡的設計構思
這樣設計的主要思想是:去構造映射H(x),與構造殘差映射F(x)是等價的,此外殘差映射也更容易優化。
這里考慮這個激活函數也為恆等映射時,則變為下式:
圖6 基本的殘差單元的介紹
若after-add后的激勵函數也為恆等映射時,灰化的線(流程圖的連接線),表示恆等映射了;
圖7 殘差網絡的前向傳播
前向過程,最后的結果表示直接的前向過程,連加的運算(考慮的殘差單元為一個單元,殘差元的內部還是兩層的連乘),即從第l層可以直接到第L層,而傳統的網絡則是連乘運算,加算量明顯不同(從連乘到連加)
2.2普通網絡和殘差網絡的差別
對於殘差元來說,前向過程是線性的,而且后面的輸入等於輸入加上每一次的殘差元的結果,而普通的網絡,則為每一層卷積的連乘運算;
殘差網絡的第一大特點,反向更新解決梯度消失的問題:
殘差網絡在反向傳播的時候,則只求鏈式法則前面的部分,即從第L層的梯度可以基本上保持穩定的傳遞到第l層的反向過程。
2.2.1殘差網絡和普通的網絡反向傳播的求導對比:
之前的正向和反向可以保證計算相對簡單,主要是存在兩個恆等映射。其中激活函數不為恆等映射就為普通網絡結構。快捷連接不為恆等映射時,ReLu的使用,使得學習周期大大縮短。綜合速率和效率,DL中大部分激活函數應該選擇ReLu。
2.2.2下面考慮如果殘差網絡的快捷連接不為恆等映射的情況:
如上描述一樣,h(x)不為恆等映射時,只要系數不為1,在對誤差求導時總是會出現梯度消失或者梯度爆炸的問題;
3、深度殘差網絡結構
圖8 深度殘差網絡的設計
殘差網絡的設計規則:
對於普通網絡,其實對殘差網絡也是使用的
(1)具有相同特征圖尺度大小,具有相同個數的卷積核,對應於圖8右邊的網絡實現區域
(2)特征圖的大小減半時,特征圖的數目加倍。對應於圖8右邊的網絡虛線區域
而對於虛線區域內的快捷連接,也有兩種方式來解決
(1)在周圍填充0來增加維度
(2)使用投影快捷
事實上,除了堆疊兩層的殘差,作者還提出了堆疊三層的網絡結構,當然不是單純的3層的3*3,這里采用的1*1,3*3和1*1的卷積層,1*1的卷積主要是用來調節維度的,這種設計,進一步簡化了網絡的設計,計算量變低,從而使得網絡更深。
幾種常見的殘差單元
圖9 集中常見的殘差單元
圖10 batch Normalization的原理
BN的主要思路是對每次前向傳播的過程中對數據進行正態分布的歸一化調整;
快捷連接的多種形式:
其中,B為標量函數;C,D為門設計E.F為快捷連接為卷積和dropout
對於不同快捷連接的比較
殘差網絡的優點:
很容易訓練,值得是前向和反向都可以保證,先行使得網絡加深,可以達到1000層精度提升可以被移植到其他問題
殘差網絡的應用:
圖像的很多問題都可以應用,視覺識別、圖像生成,自然語言處理、語音識別、廣告,用戶預測。
---恢復內容結束---