閱讀筆記:Very Deep Convolutional Networks for Large-Scale Image Recognition


摘要:
在這篇論文我們主要研究卷積神級網絡的深度對大范圍圖像識別效果的影響,我們發現增加神經網絡層數增加到16-19層時我們的實驗結果有很大的提高。這使得我們在2014年的ImageNet Challenge中取得了定位第一和分類第二的成績。
動機:
卷積神經網絡可能因為有了大量的公開圖像庫而取得了巨大的成功,一些圖像識別比賽比如ILSVRC為圖像識別系統提供了測試。卷積神經網絡在計算機視覺領域更多的是變成了一個商品,很多提升卷積神經網絡的准確性的嘗試被提了出來,本文提出的一個嘗試是增加神經網絡的深度。
主要觀點:
一、卷積模型
網絡的輸入是固定尺寸的224×224的RGB圖像,唯一的預處理是每個像素減去RGB均值。這篇論文采用3×3的卷積核,步長為1,一系列卷積層后跟着一個池化層,以此反復。這里3×3的卷積核相比於7×7的卷積核有兩個好處:1.包含三個ReLu層而不是一個(增加了非線性)2.使用了更少的參數。

二、訓練模型
這里除了對圖形采樣方法不同外,其他訓練過程和AlexNet一樣。使用mini-batch gradient descent訓練,Batch size為256,momentum為0.9,使用L2正則化,正則化系數為5×10^-4,在前兩層全連接層設置dropout為0.5。初始學習率為0.01,然后當驗證集上側誤差不變時,學習率除以10。權重初始化很重要,不好的初始化可能會導致網絡停止學習。為了解決這個問題,我們首先訓練淺層的A網絡(A網絡的權重隨機初始化),然后訓練更深層的網絡時,我們使用A網絡的權重參數來初始化深層網絡的前4層卷積層和后3層全連接層,其余層的權重隨機初始化。權重隨機初始化采用0均值,方差為0.01的正態分布,偏置初始化為0。但是后來發現,不使用淺層預訓練的參數,而使用隨機初始化也可以。
這里對圖像的訓練比較重要,有兩種方法:
1.固定S(訓練圖像)的大小,稱為單尺度訓練(single-scale training)。實驗中,使用兩種大小的S尺度進行訓練,S=256和S=384。我們首先使用S=256訓練網絡,然后為了加速訓練S=384的網絡,我們使用S=256的網絡的參數進行初始化,初始學習率為0.001。
2.多尺度訓練(multi-scale training),即讓S在[Smin, Smax]范圍之內進行隨機采樣,然后將訓練圖像重新調整大小為S。由於圖像中的物體大小是不同的,因此把這個考慮在內是很有用處的。這種方法也可以看成通過尺度抖動(scale jittering)來增強訓練數據集。為了加快訓練速度,我們在單尺度S=384模型的基礎上進行fine-tuning。
三、測試模型
測試階段,我們對於一張圖, 重新定義它的規模大小,使得最短的邊大於等於224,然后可以把這個圖簡稱多個224×224的模型,分別測試,對最后測試結果取平均值。
四、評估方法
1.單尺度評估:當S為固定大小時,測試圖像大小為Q=S;當S ∈ [Smin, Smax]時,Q = 0.5(Smin +Smax)
2.多尺度評估:下面評估在測試階段使用尺度抖動帶來的影響。它包括在一個測試圖像(對應於不同的Q值)的幾個重新縮放的版本上運行一個模型,然后平均所得到的類的后驗概率。考慮到如果訓練圖像和測試圖像如果尺度差別大的話,會導致性能的下降,因此對於固定大小的S,測試時使用3種接近S的尺寸Q={S-32,S,S+32}。對於S ∈ [Smin; Smax]的情況Q={Smin,0.5(Smin+Smax),Smax}。

3.MULTI-CROP EVALUATION
4.模型融合

五、結果
深度越深,實驗結果越好,多尺度測試比單尺度測試結果要好,大量crops的測試結果可以進一步提高正確率,多模型融合也可以提高正確率。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM