
論文原址:https://arxiv.org/abs/1808.08718
代碼:https://github.com/JiahuiYu/wdsr_ntire2018
摘要
本文證明在SISR中在ReLU之前特征圖越寬,在有效的計算資源及內存條件下,模型的性能越好。本文提出的殘差網絡具有平滑的identity mapping pathway,在激活層之前,每個block含有2x,4x多的通道數。為了進行6x,9x的增寬,本文將低等級的卷積引入到超分辨網絡中。對比有BN層無BN層,本文發現對權重正則化會得到更好的結果。本文提出的超分辨網絡在DIV2K數據集上取得較好的成績。
介紹
以前的超分辨網絡包括,SRCNN,FSRCNN,ESPCN利用相對較淺層的卷積網絡(其網絡層數一般為3至5),相比后來提出的深度SR網絡(VDSR,SRResNet及EDSR等)以前的網絡准確率上稍差一些。網絡層數的增加使模型的表征能力更強。但是,同時,對底層的特征的利用效不是很充分。針對這種問題,SRDenseNet,RDN,MemNet等在低層及深層網絡層之間引入了多種跳躍連接及拼接操作,對超分辨率的模型進行形式化處理。
本文從不同的方向解決上述問題。本文並未增加多種短連接,將網絡低層次的ReLU編碼的非線性的信息傳遞到更深的網絡層中。基於殘差SR網絡,本文證實了通過簡單的增加ReLU層前的特征可以有效的提高SISR模型的性能,甚至超過包含復雜的跳躍連接及拼接操作的網絡模型。本文的創新點在於增寬ReLU前的特征,使更多的信息可以被傳遞到后面的網絡層,從而進行密集的像素值預測。
這里存在一個問題,如何對ReLU前面的激活層有效的擴寬,在實際生活中,增加過多的參數會使超分辨變得十分的低效。本文首先引入了SR 殘差網絡WDSR-A,該結構在每個殘差block的激活層之前都有一個更多通道數(x2,x4)的 identity mapping pathwey。但當通道數擴張率到達4之后,identity mapping pathway的通道數需要進一步的slimmed,這十分有損於准確率。因此,第二步,本文固定identity mapping pathway的通道數並尋找更有效的方式來擴張通道數。本文考慮了group conv及可分離卷積,但發現二者對於超分辨的性能表現的並不是很好。最終,提出線性low-rank卷積將一個較大的卷積分解為兩個較低級的卷積。利用更寬的激活及low-rank卷積,本文構建了SR網絡WDSR-B.其激活層更寬,但參數及計算量並不是增加很多。
比較有BN及無BN,本文發現對於較深的超分辨網絡,帶有權重正則化的效果會好一些。EDSR,BTSRN,RDN認為BN層會對超分辨的准確率造成不利的影響,這里被我們實驗所證實,本文提出了三個創新點,並進行了有關BN的實驗(1)mini-batch 依賴性。(2)訓練測試時不同的形式(3)訓練時,正則化對SR網絡並不合適。隨着SR網絡層數的增加,沒有BN的模型訓練起來比較困難。為此引入了權重正則化用於訓練較深的SR網絡。加了BN層可以使用較大的學習率,從而可以更快的收斂及得到更好的性能。
總結如下:I. 證實了在SISR模型中激活層前更寬的特征其性能更好。提出了寬度2x,4x的WDSR-A模型 II. 利用線性 low-rank卷積作為SR的基本構件在不增加額外計算量的前提下來提升效率及准確率。III. 證實BN不適用於訓練深度SR網絡,因此引入了權重正則化,使模型收斂的更快。
本文方法
寬激活層:WDSR-A
這部分主要討論如何在不增加計算量的基礎上拓寬ReLU層特征通道。一種簡單的方法使增加特征通道數,但這種方法什么也說明不了,只能證明更多的參數有利於提高模型的性能。該部分作者自己設計SR網絡研究在參數及計算量相同的情況下增加feature 的寬度對模型性能的影響。本文采用了較為簡單的做法,如下圖所示。
在基准WDSR網絡模型中研究,兩層的殘差blocks。假設identy mapping pathway的通道數為w1,而激活層前,內部殘差塊的通道數為w2,這里引入了擴張因子r,因此,w2 = r x w1,在常規殘差塊中w2 = w1,每個殘差塊的參數量為2xw1^2xk^2。當固定輸入尺寸時,計算量是關於參數量的一個常熟,為了使其復雜度相同,
,參超identity mapping pathway 需要進行壓縮,系數為
,同時,激活層可以擴張至
倍。本文在WDSR-A中實驗發現,當r為2至4時,上述方案有效。當r超過這個范圍時,性能會很快的下降。這是由於,identity mapping pathway變得過於細。比如,EDSR(包含16個殘差blocks,通道數為64)當r超過6時,w1相對於最終的HR圖像表示空間
小很多,其中S代表縮放尺寸,3代表RGB。因此,本文研究卷積核的參數有效性來進一步提升准確率及性能。
更寬的激活層:WDSR-B
為了解決上述問題,本文固定identity mapping pathway的通道數,同時研究更多擴張特征的有效方法。首先考慮的是1x1的卷積,該卷積被廣泛的應用於通道的擴張及壓縮。在WDSR-B模型中,本文首先將通道數通過1x1的進行擴增,並在卷積層后增加一個ReLU進行非線性處理。后來又提出了一種高效的low-rank卷積將較大的卷積核分解為兩個下級卷積,及一個1x1的卷積用於減少通道數外加一個3x3的卷積進行空間級別的特征提取。本文發現在線性low-rank后增加ReLU激活會減少准確性。
Weight Normalization vs Batch Normalization
Batch Normalization: BN 對中間的特征的均值及方差進行重新校准。從而解決internal covariate shift的問題即樣本分布在訓練過程中發生變化。BN在訓練及測試時的表達式時不同的,這里忽略了BN中re-scaling 及re-centering可學習參數。在訓練時,每層特征根據當前訓練的Mini-batch的均值及方差進行歸一化處理。

其一二階統計信息以移動平均的方式更新到全局統計信息中,
代表使用移動平均。

在進行inference時,利用全局信息來歸一化特征。分析BN的表達式可以看出來其存在的問題: (1)對於圖像超分辨,只有較小分辨率的image patch及小的mini-batch size用於加速訓練,其均值及方差會比較大,使統計信息並不穩定。(2)BN可以被看作是正則化的一種,有時甚至可以替代Dropout,但在超分辨模型中很少出現過擬合現象。因此,權重衰減,Dropout等並未存在在SR模型中。(3)不同於分類任務。網絡的最后一層是softmax(尺寸不變性)用於預測,而SR模型中不同的訓練及測試形式會影響密集像素值預測的准確率。
Weight Normalization: 該方法對網絡中的權重進行在參數化,在mini-batch的樣本中,並未引入依賴性,其訓練及測試的形式是一樣的,假設輸出y形式如下
![]()
其中,w為k維度的權重向量,b為偏差,x為k維輸入特征,WN按如下形式進行對權重向量重新進行處理。

v為k維向量,g代表一個比例數。||v||代表v的歐幾里得范數。因此可以使
,使其獨立於參數v。其參數長度及方向上的消除可以有效的加速網絡模型的收斂。對於超分辨模型,並不會存在上述BN存在的問題,同時引入了權重正則化,可以設置更大的准確率,加速模型的收斂。
網絡結構
結構如下,本文基於EDSR超分辨網絡進行了兩方面的改進。

I. Global residual pathway:首先發現這個東西是由一系列卷積層堆成的,十分吃計算。本文認為這個東西是冗余的,可以將其插入到殘差分支上。因此,本文只使用了5x5的單層卷積網絡層直接處理3xHxW的LR RGB 圖像或者patch作為輸入,同時輸出3S^2XHXW的HR圖像。S代表放大系數。這樣大量減少了參數及計算量。
II.上采樣層:不同於在上采樣后插入一個或多個卷積層,本文提出的WDSR模型提取低分辨率階段的所有特征,本文實驗發現該做法不僅沒有損害准確率,而且大幅度的提高了收斂速度。
實驗



