【深度學習】AlexNet論文翻譯


前言:本文是我對照原論文逐字逐句翻譯而來,英文水平有限,不影響閱讀即可。翻譯論文的確能很大程度加深我們對文章的理解,但太過耗時,不建議采用。我翻譯的另一個目的就是想重拾英文,所以就硬着頭皮啃了。本文只作翻譯,總結及代碼復現詳見后續的姊妹篇。

Alex原論文鏈接:https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

 

使用深度卷積神經網絡進行ImageNet圖像分類

作者:Alex Krizhevsky、Ilya Sutskever、Geoffrey E. Hinton   多倫多大學

摘要

    我們訓練了一個大型的深度卷積神經網絡,將ImageNet LSVRC-2010競賽中的120萬張高分辨率圖像分類成1000種不同的類別。在測試數據上,我們取得了Top1 37.5%和Top-5 17.0%的錯誤率,這個結果已經遠超以前的最高水平。該神經網絡具有6千萬個參數和650,000個神經元,它由5個卷積層和3個全連接層構成,其中部分卷積層后邊跟有最大池化層,全連接層后邊則是一個1000路的softmax分類器。為了使訓練速度更快,我們使用了非飽和神經元和一種卷積操作的非常高效的GPU實現。為了減少全連接層中的過擬合,我們使用了一個最近開發的被稱作“暫退法”的正則化方法,該方法已被證明十分有效。在IOLSVRC-2012競賽中,我們正式提出這個模型的一種變體,並以15.3%的top-5測試誤差率贏得榜首,相比而言,第二好的參賽隊伍則只取得26.2%的成績。

1 簡介

    當前的目標識別方法在機器學習方法中有着非常重要的應用。為了提高他們的性能,我們可以收集更大的數據集,學習更強大的模型,以及使用更好的避免過擬合的技術。屹今為止,含標注的圖像數據集相對還是比較小的——近數萬張圖像(例如,NORB [16],Caltech-101/256 [8,9],和CIFAR-10/100 [12])。簡單的識別任務使用這種規模的數據集可以取得相當不錯的結果,特別是當他們使用保留標簽的轉換進行增強時。例如,在MNIST手寫數字識別任務中,當前最好的錯誤率達到了0.3%以內,接近了人類的識別水平 [4]。但是現實數據集中的目標表現出相當大的不確定性,因此使用更大的訓練集去學習識別他們是必要的。的確,小型圖像數據集的缺點已經被廣泛地認識到(比如Pinto等人 [21]),但這僅僅是在最近收集帶有數百萬圖像的標記數據集時才變得重要起來。新的大型數據集包括由成千上萬張全分割圖像組成的LabelMe [23],以及由包含超過22000個類別的1500多萬張帶標簽的高分辨率圖像組成的ImageNet [6]。

    要從數百萬張圖像里邊學習數千個目標,我們需要一個有很強學習能力的模型。然而,目標識別任務極大的復雜度意味着這個問題即便通過一個像ImageNet一樣大的數據集都無法被明確描述,因此我們的模型也應當具有大量的先驗知識,來補償所有我們所沒有的數據。卷積神經網絡(CNNs)構造了一個此類的模型 [16, 11, 13, 18, 15, 22, 26]。他們的容量可以通過改變其深度和廣度來控制,並且他們也構造了強大的近乎正確的關於圖像本質的假設(即統計數據的平穩性和像素依賴的局部性)。因此,相比標准的具有相似大小的層的前饋神經網絡,CNNs具有更少的連接和參數,並且也更易於訓練,同時他們理論上的最佳性能可能只是略差而已。

    盡管CNNs有着出色的性能,以及相對有效的局部結構,但他們在大規模高分辨圖像的應用上依然是代價及其昂貴的。幸運的是,當前的GPUs與高度優化的2D卷積實現相結合,足以促進有趣的大型CNNs的訓練,並且最近的諸如ImageNet的數據集,含有足夠多帶標簽的樣本去訓練這種沒有太大過擬合的模型。

    本文具體的貢獻如下:我們在ILSVRC-2010和ILSVRC-2012競賽中所使用的ImageNet子集上訓練了屹今為止最大的卷積神經網絡之一,並取得了屹今為止在這些數據集上報告的最佳結果。我們編寫了一個高度優化的2D卷積GPU實現以及訓練卷積神經網絡所有固有的其他操作,這些我們公開提供(http://code.google.com/p/cuda-convnet)。我們的網絡包含了許多新的且不尋常的特征,可以提高網絡性能和降低訓練時間,詳見第3節。我們網絡的規模使得過擬合成了一個重要的問題,即便這是在擁有120萬已標注的訓練樣本的情況下,因此我們使用了數種有效的技術來避免過擬合,這部分將在第4節詳細介紹。最終的網絡包含5個卷積層和3個全連接層,並且這個深度似乎很重要:我們發現移除任何卷積層(每一個包含不超過1%的模型參數)都會導致性能變差。

    最后,網絡大小主要受限於當前GPUs可用內存的數量和我們能容忍的訓練時間的多少。我們的網絡在兩個GTX 580 3GB的GPU上花費了5-6天時間訓練。我們所有的實驗都表明,我們的結果僅僅通過等待更快的GPU和更大的數據集就能變得可用來被改進。

2 數據集

    ImageNet是一個包含大約22000類別的超過1500萬張的帶標簽的高分辨率圖像數據集。其圖像收集自Web,並且使用亞馬遜的Mechanical Truk眾包工具人工標注而成。在2010年,作為Pascal視覺目標挑戰賽(Pascal VOC)的一部分,一個被稱作ImageNet大規模視覺識別挑戰賽(ILSVRC)的年度競賽開始舉辦。ILSVRC使用了ImageNet的的一個子集,其中包含1000個類別且每個類別包含大約1000張圖像。總計有大約120萬訓練圖像,50000張驗證圖像,以及15萬測試圖像。

    ILSVRC-2010是ILSVRC僅有的可獲取其測試集標簽的版本,因此這是一個可以在上邊驗證我們絕大多數實驗的版本。后來我們也攜該模型參加了ILSVRC-2012競賽,在第6節,我們也會公布在這個版本的數據集上的結果,在該版本無法獲取測試集標簽。在ImageNet上,習慣公布兩個錯誤率:top-1和top-5,其中top-5錯誤率是一個分數,即測試圖像中正確的標簽不在前5概率里邊的樣本數除以樣本總數。

    ImageNet包含各種分辨率的圖像,同時我們的系統需要一個固定的輸入維度。因此,我們對圖像下采樣得到一個256*256的固定分辨率。給定一個矩形圖像,我們首先重新調節圖像大小至最短邊長為256,然后從結果圖像中裁剪出中心256*256的小塊。除了從每個像素減去訓練集的平均活度之外,我們沒有對圖像做其他任何方式的預處理。因此我們是在像素的(居中的)原始RGB值上訓練我們的網絡。

3 網絡結構

    網絡結構在圖2中做了概括。它包含8個學習層——5個卷積層和3個全連接層。隨后,我們描述了網絡結構中的一些新穎的和與眾不同的特征。我們根據重要性的評估對3.1-3.4節的內容依次做了排序,最重要的在前。

3.1 ReLU非線性

    將神經元的輸出f模擬成它的輸入x的函數的標准方法是:。就使用梯度下降的訓練時間來說,這些飽和非線性要比非飽和非線性更慢。繼Nair和Hinton 之后[20],我們將具有這種非線性的神經元稱為矯正線性單元(ReLUs)。使用ReLUs的深度卷積神經網絡的訓練速度是使用tanh的同等網絡的數倍。這在圖1中得到了證實,圖1顯示了使用一個特殊的4層卷積網絡進行CIFAR-10數據集的訓練,其達到25%訓練誤差所需的迭代次數。該圖表明,如果使用傳統的飽和神經元模型,我們將無法為這項工作去驗證如此大型的神經網絡。

圖1:一個使用ReLUs(實線)的四層卷積神經網絡在數據集CIFAR-10上只需要6次訓練就可達到25%的訓練錯誤率,快於使用tanh神經元(虛線)在同等網絡下的效果。每種網絡都是獨立地選擇使訓練速度盡可能快的學習率。沒有使用任何類型的正則化。這里雖然證實了ReLUs的有效程度會隨着網絡結構不同而變化,但是同樣的網絡使用ReLUs的學習速度始終要比使用飽和神經元的學習速度快數倍。

 

    我們並非一開始就去考慮替代CNNs中的傳統神經元模型。比如Jarrett等人[11]提出,在數據集Caltech-101上,非線性的使用它們的對比度歸一化類型然后緊接局部平均池化,其效果特別好。然而在這個數據集上,主要的關注點是防止過擬合,所以他們觀察到的效果是不同於我們在使用ReLUs時提出的適用於訓練集的加速能力。更快的學習對在大型數據集上訓練的大型模型的性能影響更為顯著。

3.2 GPU訓練

    單個GTX 580 GPU只有3GB內存,這限制了能夠在其上訓練的網絡的最大尺寸。事實證明120萬個訓練樣本足以去訓練由於太大而無法在一個GPU上容納的網絡。因此我們把網絡分布在兩個GPU上。當前的GPU特別適合跨GPU並行化,因為他們能夠直接讀寫另一個GPU的內存,而不需要經過主機內存。我們使用的並行化方案基本上是在每一塊GPU上布置一半的內核(或神經元),還有一個技巧:GPUs只在某些層交互。這意味着,例如,第三層內核從第二層的所有內核映射中獲取輸入。然而第四層內核僅僅從第三層中居於同一GPU上的內核映射中獲取輸入。選擇連接的方式是一個交叉驗證的問題,但是這允許我們去精調連接數量直到計算量可以接受。

    最終的結構有點類似於Ciresan等人[5]使用的“柱狀”CNN,除了我們的列不是獨立的(見圖2)。對比網絡的每一個卷積層的一半內核在一個GPU上訓練,這個方案使我們的top-1和top-5錯誤率分別降低了1.7%和1.2%。訓練時間上看,雙GPU網絡花費的訓練時間比單GPU網絡略少。(在最終的卷積層上,單GPU網絡實際上擁有和雙GPU網絡相同數量的內核。這是因為大多數的網絡參數都是在第一個全連接層上,該層取最后一個卷積層為輸入。所以為了讓兩個網絡具有大致相同的參數數量,最后一個卷積層沒有尺寸(隨后的全連接層也是如此)。因此這個比較是傾向於支持單CPU網絡的,因為它比雙GPU網絡的“一半尺寸”更大。)

3.3 LRN局部響應歸一化

    ReLUs最可取的屬性在於它們不需要輸入歸一化來避免它們飽和。如果至少一些訓練樣本產生了正輸出到ReLU,那么學習將發生在那個神經元。然而,我們仍然發現隨后的局部歸一化方案有助於概括。表示的是使用(x,y)位置的內核i以及使用ReLU非線性計算出來的神經元的活度。響應歸一化活度由下邊表達式給出: 

    上式是在相同空間位置上的n個的“毗連的”內核映射的求和,N是該層的內核總數。內核映射的順序當然是任意的並且在訓練之前就已確定。這種響應歸一化實現了一種受真實神經元類型來激發的側向抑制形式,它能夠在使用不同內核計算的神經元輸出之間為大的活度創造競爭力。常數k、n、α和β是超參數,他們的值通過使用驗證集來確定;我們使用k = 2,n = 5,α = 10^(-4),和β = 0.75。我們在某些層中應用了ReLU非線性之后使用這個歸一化(見3.5節)。

    這個方案和Jarrett等人[11]提出的局部對比度歸一化有些類似,但是由於我們的方案沒有提取平均活度,所以稱之為“亮度歸一化”更加得體。響應歸一化使我們的top-1和top-5錯誤率分別降低了1.4%和1.2%。我們也驗證了該方案在CIFAR-10數據集的效果:四層的CNN網絡使用歸一化和不使用歸一化分別取得11%和13%的錯誤率。(由於空間限制我們沒法呈現這個網絡的細節,但是網站http://code.google.com/p/cuda-convnet/上有通過代碼和參數文件對該網絡的詳盡描述。)

3.4 重疊池化

    CNNs中的池化層匯總了同一內核映射中的相鄰組神經元的輸出。傳統上,通過相連池化單元匯總的鄰域是不重疊的(例如[17, 11, 4])。更准確地說,池化層可以被認為是由一個間隔s像素的池化單元網格組成,每一個池化單元匯總一個位於池化單元位置中心的大小z*z的鄰域。如果設置s = z,我們會得到CNNs中常用的傳統局部池化。如果設置s < z,得到的將是重疊池化。我們網絡中所使用的參數是s = 2和z = 3。這個方案對比s = 2,z =2時產生同等維度輸出的非重疊方案,其top-1和top-5錯誤率分別降低了0.4%和0.3%。我們通常在訓練期間觀察到帶有重疊池化的模型稍微更不容易過擬合。

3.5 整體結構

    現在我們准備描述我們的CNN的整體結構。如圖2描述,本網絡包含8個帶權重的層;前5層為卷積層,后3層為全連接層。最后一個全連接層的輸出被饋送到一個1000路的softmax分類器,它產生了超過1000類標簽的分類。我們的網絡使得多項式邏輯回歸目標最大化,這等同於最大化預測分布下正確標簽交叉對數概率的訓練實例的平均值。

圖2:我們CNN結構示意圖,明確地展示了兩個GPU之間的職責划分。一個GPU運行圖頂部的層部分,而另一個GPU則運行底部的層部分。GPU只在確定的層之間交互。該網絡輸入為150528維,剩余的網絡層中神經元的數量分別為253440-186624-64896-64896-43264-4096-4096-1000。

 

    第2、第4和第5個卷積層的內核,僅連接到位於同一GPU上的前一層中的內核映射(見圖2)。第三個卷積層的內核連接到第二層的所有內核映射。全連接層的神經元連接到前一層的所有神經元。響應歸一化層緊隨在第1個和第2個卷積層之后。在3.4節描述的那種類型的最大池化層,跟隨在響應歸一化層和第五個卷積層之后。ReLU非線性應用到每一個卷積層和全連接層的輸出。

    第一個卷積層是用96個大小11*11*3,步長4像素的卷積核對224*224*3的輸入圖像進行濾波(步長是指在內核映射中相鄰神經元感受野中心的距離)。第二個卷積層將第一個卷積層的(響應歸一化和池化)輸出作為輸入,並使用256個大小5*5*48的內核進行濾波。第三、第四和第五個卷積層彼此相連,沒有任何中間池化層或歸一化層。第三個卷積層有384個大小3*3*256的內核連接至第二個卷積層的(歸一化,池化)輸出。第四個卷積層有384個大小3*3*192的內核,第五個卷積層有256個大小3*3*192的內核。全連接層每層有4096個神經元。

4 減小過擬合

    我們的神經網絡結構有6000萬個參數。盡管ILSVRC的1000種類別讓每一個訓練樣本在從圖像到標簽的映射中強加了10位的約束,但事實證明,在沒在顯著的過擬合的情況下很難充分學習如此多的參數。下邊,我們描述兩種主要的防止過擬合的方法。

4.1 數據增強

    減小圖像數據過擬合的最容易和最常見的方法是使用標簽保存轉換人為的增擴數據集(例如[25,4,5])。我們使用了兩種不同的數據增強形式,他們都允許轉換的圖像是由原始圖像經過極少量的計算生成的,因此轉換的圖像不需要存儲在磁盤上。在我們的實現中,轉換后的圖像在GPU訓練前一批量圖像時通過CPU上的Python代碼生成。因此這些數據增強方案實際上在計算方面是免費的。

    第一種形式的數據增強包括圖像平移和水平映射。我們做到這一點是通過從256*256大小的圖像中提取隨機224*224的圖像塊(及其水平映射),並且在這些提取的塊上訓練我們的網絡(這也是為什么在圖2中輸入圖像是224*224*3的原因)。這使我們的訓練集大小增大了2048倍,盡管由此產生的訓練樣本當然是高度相互依賴的。不使用這個方案,我們的網絡會遭受嚴重的過擬合,這將迫使我們去使用更小的網絡。在測試時,網絡通過提取5個224*224的塊(四個角的圖像塊和中心的圖像塊)和他們的水平映射(因此總計10個圖像塊)來做預測,並將網絡Softmax層在10個塊上作的預測進行平均。

    第二種形式的數據增強包括改變訓練圖像中RGB通道的強度。特別的,我們對整個ImageNet訓練集的RGB像素值集合執行主成分分析(PCA, Principal Component Analysis)。對每一個訓練圖像,我們增加了多個已經找到的主成分,使用大小相稱的響應特征值乘以一個任意的均值為0標准差為0.1的高斯變量。因此對於每一個RGB圖像像素,我們添加下邊的值:

   上式中:和分別是RGB像素值的3*3協方差矩陣的第i個特征向量和特征值,是前邊提及的隨機變量。對於特定訓練圖像的所有像素,每個僅僅被動用一次,直到這個圖像再次被用來訓練,這個點會被重新動用。這個方案近似捕捉到了自然圖像的一個重要特性,即對象的一致性是不隨顏色亮度和強度的改變而變化的。這個方案使我們的top-1錯誤率降低了超過1%。

4.2 暫退法(Dropout

    結合很多不同模型的預測是一個很成功的降低測試錯誤率的方法[1,3],但是這對於已經需要數天時間訓練的大型神經網絡來說似乎太過昂貴。然而有一種特別有效的模型組合版本,它僅花費大約兩倍的訓練時間。最近引入的被稱作“暫退法”的技術,以0.5的概率將每個隱藏神經元的輸出設為0。通過這個方法“退出”的神經元不會參與前向傳播,也不會參與反向傳播。所以每當一個輸入呈現,神經網絡就會對不同的結構采樣,但是全部這些結構共享權重。這個技術降低了神經元復雜的互適應性,因為一個神經元無法依賴於特定的其他神經元而存在。因此,他被迫去學習更魯棒的特征,這有益於結合很多其他神經元的不同的隨機子集。在測試期間,我們使用了所有的神經元,但將他們的輸出乘以了0.5,這是一個合適的近似值,以獲取由指數級多的dropout網絡產生的預測分類的幾何均值。

    我們在圖2的前兩個全連接層使用了Dropout。不使用Dropout時我們的網絡會表現出巨大的過擬合。Dropout大約需要兩倍的迭代次數去收斂。

5 學習中的細節

    我們使用隨機梯度下降訓練我們的模型,參數為批量大小128,沖量0.9,權重衰退0.0005。我們發現這個很小的權重衰退對模型的訓練是很重要的。換句話說,這里的權重衰退不僅僅是一個正則化項,它也降低了模型的訓練誤差。權重w的更新規則如下:

    式中:i表示迭代索引,v表示沖量變量,表示學習率,表示對象關於w在的處的導數在第i個批量上的平均值

 

圖3:在224*224*3的輸入圖像上,96個通過第一個卷積層學習到的大小11*11*3的卷積核。上層的48個內核是在GPU1上學習的,而下層的48個內核是在GPU2上學習的。細節詳見6.1節。

     

    我們每一層的權重都是從一個標准差為0.01的零均值高斯分布初始化得到的。我們在第2、4、5個卷積層,以及全連接隱藏層將神經元偏置項初始化為了常數1。這個初始化通過給正輸出提供ReLUs加快了早期階段的學習。我們在剩余的層里將神經元偏置項初始化為了常數0。

    我們在所有的層都使用了相同的學習率,且在訓練期間手動調整它。我們遵循的啟發式方法是在當前的學習率下當驗證錯誤率不再提高時將學習率除以10。學習率被初始化為0.01並且在終止前降低了三倍。我們通過訓練集的120萬圖片訓練該網絡大約90個循環,這在兩個英偉達GTX580 3G的GPUs上花費了5-6天。

6 結果

    我們在ILSVRC-2010上的結果總結在表1中。我們的網絡在測試集取得了top-1錯誤率37.5%和top-5錯誤率17.0%的成績(沒有在4.1節描述的10個圖像塊上使用平均預測的錯誤率為39.0%和18.3%。在ILSVRC-2010競賽中取得的最佳性能是47.1%和28.2%,其方法是對6個在不同特征上訓練的稀疏矩陣模型產生的預測進行平均[2]。並且在這之后最好的發布結果是45.7%和25.7%,該方法是對兩個在費舍爾向量(FVs)上訓練的分類器的預測進行平均,其中FVs是從樣本稠密特征計算而來。  

表1:在ILSVRC-2010測試集上的結果對比。斜體是其他人取得的最好結果。

 

    我們也攜模型參加了ILSVRC-2012競賽並在表2中公布了我們的結果。由於ILSVRC-2012的測試集標簽不是公開可用的,所以我們無法公布出所有我們嘗試過的模型的測試錯誤率。在這一段的剩余部分,我們交替使用了驗證和測試錯誤率,因為在我們的經驗中他們的偏差不會超過0.1%(見表2)。在這篇文章中描述的CNN取得了18.2%的top-5錯誤率。五個相同CNNs給出的平均預測錯誤率為16.4%。訓練一個CNN網絡,其最后一個池化層上帶有額外的第六個卷積層,對整個ImageNet Fall 2011發行版本進行分類(1500萬圖像,22000個種類),然后在ILSVRC-2012上微調它,取得了16.6%的錯誤率。平均預測在整個Fall 2011發布版本上用上述的5個CNNs預訓練得到的兩個CNNs模型,誤差率為15.3%。而第二好的競賽作品取得的誤差率為26.2%,該方法是對數個在費舍爾向量(FVs)上訓練的分類器的預測進行平均,其中FVs是從樣本稠密特征計算而來[7]。

表2:在ILSVRC-2012驗證集和測試集上的錯誤率對比。斜體是其他人取得的最好結果。帶星號*的模型是在“預訓練”后對整個ImageNet 2011 Fall發布版進行分類。詳見第6節

 

    最后,我們也發布了我們在ImageNet Fall 2009版本上的錯誤率,其中包含10184個類別和890萬張圖像。在這個數據集上,我們根據文獻慣例各用一半的圖像進行訓練和測試。由於沒有已經建立好的測試集,我們的分類必然不同於之前的作者使用的分類,但是這不會明顯地影響到結果。我們在這個數據集上通過上邊所描述的網絡得到的top-1和top-5錯誤率為67.4%和40.9%,該網絡的最后一個池化層上帶有額外的第六個卷積層。在這個數據集上最好的發布結果是78.1%和60.9%[19]。

6.1 定性分析

    圖3展示了卷積核通過網絡的兩個數據連接層進行學習。這個網絡已經學到了各種各樣頻率選擇性和方向選擇性的內核,以及各種顏色的斑點。注意雙GPUs所展現出的特化性,這是在3.5節中描述的受限連接的結果。GPU1上的內核很大程度上是色彩未知的,而在GPU2上的內核很大程度上是色彩明確的。這種類型的特化存在於每一個運行過程中,並且獨立於任何特定的隨機權重初始化(對GPUs的重編號取模)。

  

圖4:(左圖)8張ILSVRC-2010測試圖像和5個最有可能被我們的模型所考慮的標簽。正確的標簽寫在每一張圖像的下邊,並且分配到正確標簽的概率也會用紅色條框顯示(如果它恰好在前五)。(右圖)第一列是5張ILSVRC-2010測試圖像。剩余列顯示的是在最后一個隱藏層產生特征向量的6張訓練圖像,這些特征向量與測試圖像的特征向量的歐幾里德距離最小。

 

    在圖4的左邊版面,我們通過計算在八張測試圖像上的top-5預測定性地評估了網絡學習的東西。注意甚至偏離中心的對象也能被這個網絡識別,比如左上角的蟎蟲。大多數的top-5標簽似乎是合理的。例如,只有其他類型的貓科動物被當作是獵豹的似乎合理的標簽。在一些情況下(柵欄,櫻花),圖像的預期關注點確實是不明確的。

    探索網絡視覺知識的另一個的方法是考慮由圖像在最后一個4096維的隱藏層引起的特征激活。如果兩張圖像產生帶有一個小的歐幾里得分離的特征激活向量,那么我們可以說更高層的神經網絡認為它們是相似的。圖4顯示了5張來自測試集的圖像和6張來自於訓練集的圖像,根據這個衡量標准來看他們相互之間是最相似的。注意在像素級別上,檢索的訓練圖像在L2上通常與第一列的查詢圖像不接近。例如,檢索的狗和大象以各種姿勢出現。在補充材料里邊我們展現了更多測試圖像的結果。

    通過使用兩個4096維的實值向量的歐幾里德距離來計算相似度是低效的,但是可以通過訓練一個自編碼器來將這些向量壓縮成短小的二進制代碼,從而使其變得高效。這應該會產生一個比在原始像素上應用自編碼器[14]更好的圖像檢索方法,它不使用圖像標簽,因此傾向於檢索具有相似邊緣模式的圖像,無論他們在語義上相似與否。

7 討論

    我們的結果表明,一個大而深的卷積神經網絡是有能力在極具挑戰性的數據集上使用純粹的監督學習方法取得破紀錄的結果的。值得注意的是移除一個單一的卷積層會使我們網絡的性能降低。例如,移除任意一個中間層將導致網絡的top-1性能損失大約2%。因此對我們取得的結果來說,網絡的深度的確是很重要的。

    為了簡化我們實驗,我們沒有使用任何非監督的預訓練,即使我們認為這是有幫助的,特別是如果我們得到了足夠的算力去顯著地提高網絡的大小,但沒有得到相應的在標簽數據數量上的提高。所以很大程度上,雖然我們的結果已經得到了改善,因為我們已經使我們的網絡變得更大並且訓練的時間更長,但是為了匹配人類視覺系統中的顳下神經網絡,我們仍然有很多數量級的工作去做。最后我們想要在視頻序列上使用很大很深的卷積網絡,現在的結構提供了十分有用的信息,這些信息在靜態圖像上是缺失的或者很不明顯的。

參考文獻

[1] R.M. Bell and Y. Koren. Lessons from the netflix prize challenge. ACM SIGKDD Explorations Newsletter, 9(2):75–79, 2007.

[2] A. Berg, J. Deng, and L. Fei-Fei. Large scale visual recognition challenge 2010. www.imagenet. org/challenges. 2010.

[3] L. Breiman. Random forests. Machine learning, 45(1):5–32, 2001.

[4] D. Cire¸san, U. Meier, and J. Schmidhuber. Multi-column deep neural networks for image classification. Arxiv preprint arXiv:1202.2745, 2012.

[5] D.C. Cire¸san, U. Meier, J. Masci, L.M. Gambardella, and J. Schmidhuber. High-performance neural networks for visual object classification. Arxiv preprint arXiv:1102.0183, 2011.

[6] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09, 2009.

[7] J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla, and L. Fei-Fei. ILSVRC-2012, 2012. URL http://www.image-net.org/challenges/LSVRC/2012/.

[8] L. Fei-Fei, R. Fergus, and P. Perona. Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories. Computer Vision and Image Understanding, 106(1):59–70, 2007.

[9] G. Griffin, A. Holub, and P. Perona. Caltech-256 object category dataset. Technical Report 7694, California Institute of Technology, 2007. URL http://authors.library.caltech.edu/7694.

[10] G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R.R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012.

[11] K. Jarrett, K. Kavukcuoglu, M. A. Ranzato, and Y. LeCun. What is the best multi-stage architecture for object recognition? In International Conference on Computer Vision, pages 2146–2153. IEEE, 2009.

[12] A. Krizhevsky. Learning multiple layers of features from tiny images. Master’s thesis, Department of Computer Science, University of Toronto, 2009.

[13] A. Krizhevsky. Convolutional deep belief networks on cifar-10. Unpublished manuscript, 2010.

[14] A. Krizhevsky and G.E. Hinton. Using very deep autoencoders for content-based image retrieval. In ESANN, 2011.

[15] Y. Le Cun, B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard, L.D. Jackel, et al. Handwritten digit recognition with a back-propagation network. In Advances in neural information processing systems, 1990.

[16] Y. LeCun, F.J. Huang, and L. Bottou. Learning methods for generic object recognition with invariance to pose and lighting. In Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004 IEEE Computer Society Conference on, volume 2, pages II–97. IEEE, 2004.

[17] Y. LeCun, K. Kavukcuoglu, and C. Farabet. Convolutional networks and applications in vision. In Circuits and Systems (ISCAS), Proceedings of 2010 IEEE International Symposium on, pages 253–256. IEEE, 2010.

[18] H. Lee, R. Grosse, R. Ranganath, and A.Y. Ng. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. In Proceedings of the 26th Annual International Conference on Machine Learning, pages 609–616. ACM, 2009.

[19] T. Mensink, J. Verbeek, F. Perronnin, and G. Csurka. Metric Learning for Large Scale Image Classification: Generalizing to New Classes at Near-Zero Cost. In ECCV - European Conference on Computer Vision, Florence, Italy, October 2012.

[20] V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In Proc. 27th International Conference on Machine Learning, 2010.

[21] N. Pinto, D.D. Cox, and J.J. DiCarlo. Why is real-world visual object recognition hard? PLoS computational biology, 4(1):e27, 2008.

[22] N. Pinto, D. Doukhan, J.J. DiCarlo, and D.D. Cox. A high-throughput screening approach to discovering good forms of biologically inspired visual representation. PLoS computational biology, 5(11):e1000579, 2009.

[23] B.C. Russell, A. Torralba, K.P. Murphy, and W.T. Freeman. Labelme: a database and web-based tool for image annotation. International journal of computer vision, 77(1):157–173, 2008.

[24] J. Sánchez and F. Perronnin. High-dimensional signature compression for large-scale image classification. In Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, pages 1665–1672. IEEE, 2011.

[25] P.Y. Simard, D. Steinkraus, and J.C. Platt. Best practices for convolutional neural networks applied to visual document analysis. In Proceedings of the Seventh International Conference on Document Analysis and Recognition, volume 2, pages 958–962, 2003.

[26] S.C. Turaga, J.F. Murray, V. Jain, F. Roth, M. Helmstaedter, K. Briggman,W. Denk, and H.S. Seung. Convolutional networks can learn to generate affinity graphs for image segmentation. Neural Computation, 22(2):511–538, 2010.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM