ResNet v2筆記

本文轉載自查看原文 2018-09-22 15:28 1555 人工智能與深度學習/ 深度學習

1、簡介

深度參殘差網絡由許多的殘差塊構成，在v1版本里，殘差塊可由公式表述如下：

h(x)=x,這是一個恆等映射；F是殘差函數；f是ReLU激活函數。這篇論文的主要工作是構建了信息傳播的直接通道——不僅是在殘差塊內部，而且在整個網絡中都能夠高效地傳遞。作者通過推導證明了：如果h(x)和f(x)都是恆等映射的話，那么信號能夠直接從一個殘差塊傳遞到另一個殘差塊，無論是在前向傳播還是反向傳播的過程中。

如上圖所示，左圖(a)是在v1中使用的殘差塊結構示意圖，右圖是在這篇文章中使用的結構。與v1版本相比，v2將激活函數都放在了求殘差這條支路上，這樣一來，在反向傳播和前向傳播中，信息的傳播速度都會很快，這使得網絡唔夠得到更好的效果，並且這種結構也防止了梯度消失的問題。

2、殘差網絡分析：

V1版本的殘差塊使用公式描述如下：

在這里，如果我們假設f也是恆等映射，那么就有：

遞歸地可以求得：

這個公式有着兩個非常好的特性：

1、任意的都可以表示為與殘差項的和；2、任意的都是前面預測的各殘差項之和；這與v1版本有着很大的區別（v1版本中如果忽略BN和ReLU）則可以看成是逐項相乘；

對損失函數求導可得：

可以看到，梯度可以被分解為兩項：一項是，另一項與這一項相加構成了梯度的全部信息。第一項就保證了梯度能夠被直接從L層傳遞到第l層；此外，這個公式還表明不會為零，因為括號里的后一項不會始終為-1，這就避免了梯度消失的問題。

3、當h(x)不為恆等變換且f(x)也不是恆等變換時，模型的效果如何？

我們先從公式上來分析：假設h(x)是在恆等變換的基礎上乘以因子λ，那么X_L為：

λ的引入對上式會產生很大的影響：1、λ>1時，上式很有可能會出現爆炸的情況，0<λ<1時，上式很有可能會趨於零。這對優化造成了困難。

基於這種情況，作者做了幾組對照實驗，將它們與原始的殘差結構進行對比，實驗結果如下：

從上面的實驗結果可以看出：原始的殘差結構的表現是最好的，其他的一些殘差結構效果更差，甚至在訓練時都不能收斂；值得注意的是，實施了1×1卷積和shortcut-only gating的殘差塊結構的網絡應該是包含了原始網絡(使用最初的殘差塊結構)的解空間的，也即這兩個網絡的表示能力其實是比原始網絡要強的，這更說明模型難以優化是導致這兩種模型效果不如原始網絡的的原因。

4、激活函數的使用對網絡的影響如何呢？

下面是幾種殘差塊網絡結構示意圖：

圖(a)是原始的網絡結構，灰色的大箭頭是信息傳播最快的方向，可以看到在灰色箭頭上還有加和和激活函數。如果想要是恆等變換的話，那么我們酒的重新排列ReLU和BN的順序，也就是在圖中灰色箭頭的方向上只有加和而沒有激活函數和BN,激活函數和BN就只能放入殘差函數中。在上圖中，圖(c)、(d)、(e)是這三種結構。

圖(b)與我們想要的結構剛好相反：它將BN放在了加和之后，這阻礙了信息的傳播，具體表現為模型的收斂速度更慢，如下圖所示：

顯然，這種方式是不可取的。我們在來看后面幾種結構。先來看(c)中的結構：

它將激活函數放在了加和之前，我們知道ReLU的值域為[0,]，就是說殘差函數的輸出始終非負，而直觀地講，我們希望殘差函數的輸出能夠是[,]，因此可以預見這個模型的表達能力是受到抑制的，實驗結果也證實了這一點(實驗結果見下圖)。

可以看到，(c)結構的效果是不如原始結構的。基於此，我們將激活函數放在最終的輸出之前，也就是在獲取輸入后先對輸入進行激活，然后再將激活值歸一化，再與權重層相乘，最后輸出。注意這里BN的位置與一般的位置有所不同，一般地，BN會在輸入與權重相乘之后實施，然后再激活。具體的實施有兩種方案：一種是只將激活放在權重層之前，另一種是將BN層也放在權重層之前。兩種結構的性能如上表所示。從表中可以發現，只將ReLU放在權重層之前的結構與原始的網絡表現類似；而將BN也放在權重層之前的結構的性能則得到了大幅提高。為什么先對輸入進行激活的模型有着更好的性能呢？我們分析原因如下：

1、相比於原始的網絡結構，先激活的網絡中f是恆等變換，這使得模型優化更加容易。

上表是原始網絡與先激活網絡在不同層數，不同測試條件下的對比結果，使用了先激活輸入的網絡在所有的測試條件下表現都更好。

2、使用了先激活輸入的網絡，能夠減少網絡過擬合。

使用了先激活的網絡在的訓練誤差均比原始網絡要高，但是其測試誤差卻要低於原始網絡。作者分析這可能是BN層的作用，在原始網絡中，雖然殘差函數的輸出被歸一化了，但是這個歸一化的結果與殘差塊的輸入直接相加作為下一個殘差塊的輸入，這個輸入在與權重層相乘之前並沒有被歸一化；而在先激活的網絡中，輸入與權重層相乘之前都被歸一化了，所以有着更好的性能。

這是殘差網絡的第二篇筆記，后續還有v3，待我仔細研讀之后再來更新！！！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Thinkphp6筆記：總結 Thinkphp6筆記三：開啟.env laravel5.8筆記四：路由學習CentOS7筆記(一) Thinkphp5筆記三：創建基類 408筆記完整考點篇 HTML5筆記——formData PyQt5筆記之標簽 JAVA安全漫談1-8筆記【css3筆記】---- 漸變的秘密