幾個小濾波器卷積層的組合比一個大濾波器卷積層好:假設你一層一層地重疊了3個3x3的卷積層(層與層之間有非線性激活函數)。在這個排列下,第一個卷積層中的每個神經元都對輸入數據體有一個3x3的視野。第二個卷積層上的神經元對第一個卷積層有一個3x3的視野,也就是對輸入數據體有5x5的視野。同樣,在第三個卷積層上的神經元對第二個卷積層有3x3的視野,也就是對輸入數據體有7x7的視野。假設不采用這3個3x3的卷積層,二是使用一個單獨的有7x7的感受野的卷積層,那么所有神經元的感受野也是7x7,但是就有一些缺點。首先,多個卷積層與非線性的激活層交替的結構,比單一卷積層的結構更能提取出深層的更好的特征。其次,假設所有的數據有個通道,那么單獨的7x7卷積層將會包含
個參數,而3個3x3的卷積層的組合僅有
個參數。直觀說來,最好選擇帶有小濾波器的卷積層組合,而不是用一個帶有大的濾波器的卷積層。前者可以表達出輸入數據中更多個強力特征,使用的參數也更少。唯一的不足是,在進行反向傳播時,中間的卷積層可能會導致占用更多的內存。