caffe卷積輸入通道如何到輸出通道

本文轉載自查看原文 2016-11-11 20:16 1386

今天一個同學問卷積過程好像是對一個通道的圖像進行卷積，比如10個卷積核，得到10個feature map，那么輸入圖像為RGB三個通道呢，輸出就為 30個feature map 嗎，答案肯定不是的，輸出的個數依然是卷積核的個數。可以查看常用模型，比如lenet 手寫體，Alex imagenet 模型，每一層輸出feature map 個數就是該層卷積核的個數。

1、一通道單個卷積核卷積過程

2、一通道多個卷積核卷積過程

一個卷積核得到的特征提取是不充分的，我們可以添加多個卷積核，比如32個卷積核，可以學習32種特征。在有多個卷積核時，如下圖所示：輸出就為32個feature map

卷積神經網絡

3、多通道的多個卷積核

下圖展示了在四個通道上的卷積操作，有兩個卷積核，生成兩個通道。其中需要注意的是，四個通道上每個通道對應一個卷積核，先將w2忽略，只看w1，那么在w1的某位置（i,j）處的值，是由四個通道上（i,j）處的卷積結果相加然后再取激活函數值得到的。所以最后得到兩個feature map，即輸出層的卷積核核個數為 feature map 的個數。

卷積神經網絡

所以，在上圖由4個通道卷積得到2個通道的過程中，參數的數目為4×2×2×2個，其中4表示4個通道，第一個2表示生成2個通道，最后的2×2表示卷積核大小。

下面是常見模型，理解一下每層feature map 個數，為上一層卷積核的個數

下圖即為Alex的CNN結構圖。需要注意的是，該模型采用了2-GPU並行結構，即第1、2、4、5卷積層都是將模型參數分為2部分進行訓練的。在這里，更進一步，並行結構分為數據並行與模型並行。數據並行是指在不同的GPU上，模型結構相同，但將訓練數據進行切分，分別訓練得到不同的模型，然后再將模型進行融合。而模型並行則是，將若干層的模型參數進行切分，不同的GPU上使用相同的數據進行訓練，得到的結果直接連接作為下一層的輸入。

卷積神經網絡

上圖模型的基本參數為：

輸入：224×224大小的圖片，3通道
第一層卷積：5×5大小的卷積核96個，每個GPU上48個。
第一層max-pooling：2×2的核。
第二層卷積：3×3卷積核256個，每個GPU上128個。
第二層max-pooling：2×2的核。
第三層卷積：與上一層是全連接，3*3的卷積核384個。分到兩個GPU上個192個。
第四層卷積：3×3的卷積核384個，兩個GPU各192個。該層與上一層連接沒有經過pooling層。
第五層卷積：3×3的卷積核256個，兩個GPU上個128個。
第五層max-pooling：2×2的核。
第一層全連接：4096維，將第五層max-pooling的輸出連接成為一個一維向量，作為該層的輸入。
第二層全連接：4096維
Softmax層：輸出為1000，輸出的每一維都是圖片屬於該類別的概率。

4 DeepID網絡結構

DeepID網絡結構是香港中文大學的Sun Yi開發出來用來學習人臉特征的卷積神經網絡。每張輸入的人臉被表示為160維的向量，學習到的向量經過其他模型進行分類，在人臉驗證試驗上得到了97.45%的正確率，更進一步的，原作者改進了CNN，又得到了99.15%的正確率。

如下圖所示，該結構與ImageNet的具體參數類似，所以只解釋一下不同的部分吧。

卷積神經網絡

上圖中的結構，在最后只有一層全連接層，然后就是softmax層了。論文中就是以該全連接層作為圖像的表示。在全連接層，以第四層卷積和第三層max-pooling的輸出作為全連接層的輸入，這樣可以學習到局部的和全局的特征。

---------------------------------------------------------------------------------------------------------------------------------------------------------------------

下面講一下，caffe中的實現。