CNN基礎框架簡介

本文轉載自查看原文 2018-06-24 11:36 1077

卷積神經網絡簡介

　　　卷積神經網絡是多層感知機的變種，由生物學家休博爾和維瑟爾在早期關於貓視覺皮層的研究發展而來。視覺皮層的細胞存在一個復雜的構造，這些細胞對視覺輸入空間的子區域非常敏感，我們稱之為感受野。

　　　通常神經認知機包含特征提取的采樣元和抗變形的卷積元，采樣元中涉及兩個重要參數，即感受野與閾值參數，前者確定輸入連接的數目，后者控制對特征子模式的反應程度。卷積神經網絡可以看作神經認知機的推廣。

卷積神經網絡的特點

　　　卷積神經網絡成功的關鍵在於它采用了局部連接（傳統神經網絡中每個神經元與圖片上每個像素相連接）和權值共享（卷積過程中卷積核的權重不變）的方式，一方面減少了權值的數量使得網絡易於優化，另一方面降低了過擬合的風險。

　　圖1 全連接與局部連接

　　　CNN的特征提取層參數是通過訓練數據學習得到的，所以其避免了人工特征提取，而是從訓練數據中進行學習；同一特征圖的神經元共享權值，減少了網絡參數，這也是卷積神經網絡相對於全連接網絡的一大優勢。

　　　CNN一般采用卷積層與采樣層交替設置，即一層卷積層接一層采樣層，采樣層后接一層卷積層……，這樣卷積層提取出特征，再進行組合形成更抽象的特征，最后形成對圖片對象的特征描述。

　　　下采樣層(Down-Pooling)也稱池化層，一般包含平均池化和最大池化。最大池化(Pooling)采樣，它是一種非線性降采樣方法，其在計算機視覺中的價值主要體現在兩個方面：(1)它減小了來自上層隱藏層的計算復雜度；(2)這些池化單元具有平移不變性；由於增強了對位移的魯棒性，因此是一個高效的降低數據維度的采樣方法。

CNN的演變史

　　圖2 CNN的演變路徑　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

　　CNN的演變路徑可以總結為以下幾個方向：

　　　　1.從LeNet到Alex-Net

　　　　2.網絡結構加深

　　　　3.加強卷積功能

　　　　4.從分類到檢測

　　　　5.新增功能模塊

LeNet

　　　Paper: http://www.dengfanxin.cn/wp-content/uploads/2016/03/1998Lecun.pdf

　　圖3 LeNet基礎網絡架構

　　作為CNN的開端，LeNet包含了卷積層，池化層，全連接層，這些都是現代CNN網絡的基本組件。

　　輸入尺寸：32*32

　　卷積層：3個

　　降采樣層：2個

　　全連接層：1個

　　輸出：10個類別（數字0~9的概率）

　　Inuput(32*32)

　　輸入圖像Size為32*32，比mnist數據庫中最大的字母(28*28)還大，這樣做的目的是希望潛在的明顯特征能夠出現在最高層特征監測子感受野的中心。

　　C1,C3,C5(卷積層)

　　卷積運算可以理解為濾波操作（參考Stanford CS131），通過卷積運算，可以使原信號特征增強，並且降低噪聲。

　　S2,S4(池化層)

　　池化層，也稱下采樣層，是為了降低網絡訓練參數及模型的過擬合程度，通常有Max-Pooling和Mean-Pooling兩種方式。

AlexNet

　　　Paper: https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

　　深度學習的鼻祖Hinton(http://study.163.com/course/introduction.htm?courseId=1003842018)和他的學生Alex Krizhevsky 在2012年ImageNet Challenge使用的模型，刷新了Image Classification的記錄，從此深度學習進入了一個新時代；

　　AlexNet的網絡結構如下圖所示，總共包含８層，其中前５層為卷積層，后３層為全連接層,輸入為1000個分類，一個完整的卷積層通常包含一層convolution，一層Rectified Linear Units，一層max-pooling，一層normalization，AlexNet完整的網絡模型如圖4所示,為了加快訓練，使用了２個GPU;

　　　　　　　　　　　　　　　　　　　　　　　　　　　圖4 AlexNet網絡模型　　

layer {
  name: "conv1"
  type: "Convolution"
  bottom: "data"
  top: "conv1"
  param {
    lr_mult: 1
    decay_mult: 1
  }
  param {
    lr_mult: 2
    decay_mult: 0
  }
  convolution_param {
    num_output: 96
    kernel_size: 11
    stride: 4
　　#高斯分布初始化權值
    weight_filler {
      type: "gaussian"
      std: 0.01
    }
　　#常數（默認為0）初始化權值
    bias_filler {　　
      type: "constant"
      value: 0
    }
  }
}
#激活函數，為了引入非線性，ReLU的優點在於收斂速度比sigmoid/tanh快，sigmoid用於二分類，softmax用於多分類
layer {
  name: "relu1"
  type: "ReLU"
  bottom: "conv1"
  top: "conv1"
}
#局部響應歸一化層，一般在激活、池化后的一種操作，有利於增加泛化能力（后期VGG,GoogleNet,YOLO未使用該種方式）
layer {
  name: "norm1"
  type: "LRN"
  bottom: "conv1"
  top: "norm1"
  lrn_param {
    local_size: 5
    alpha: 0.0001
    beta: 0.75
  }
}
layer {
  name: "pool1"
  type: "Pooling"
  bottom: "norm1"
  top: "pool1"
  pooling_param {
    pool: MAX
    kernel_size: 3
    stride: 2
  }
}

　　Conv1對應的數據流圖如下，AlexNet首先256*256*3的RGB圖像進行數據增強，對於輸入的圖像隨機提取224*224*3，並對數據進行水平鏡像處理，使得數據集增大了(256-224)*(256-224)*2=2048倍，隨后經過預處理變為227*227*3的訓練數據;使用96個11*11的卷積核進行卷積運算（每個GPU 48個卷積核），步長為4，對應的輸出尺寸為（227+2*0-11）/4+1＝55，隨后使用3*3的池化層進行下采樣，步長為2，對應的輸出尺寸為(55+2*0-3)/2+1=27;　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　圖5 Conv1數據流圖

　　Conv2對應的數據流圖如下，輸入為27*27*96的圖像，使用256個5*5*96的卷積核進行卷積運算(每個GPU 128個卷積核)，使用pad=2進行填充，輸出尺寸為(27+2*2-5)/1+1=27，隨后使用3*3的池化層進行下采樣，步長為2，對應的輸出尺寸為(27+2*0-3)/2+1=13;

　　　　　　　　　　　　　　　　　　　　　　　　　　　　圖6 Conv2數據流圖

　　Conv3對應的數據流圖如下，輸入為13*13*256的圖像，使用384個3*3*256的卷積核進行卷積運算(每個GPU 192個卷積核)，使用pad=1進行填充，輸出尺寸為(13+2*1-3)/1+1=13，未使用池化層;

　　　　　　　　　　　　　　　　　　　　　　　　　　　　圖7 Conv3數據流圖

　　Conv4對應的數據流圖如下，輸入為13*13*384的圖像，使用384個3*3*384的卷積核進行卷積運算(每個GPU 192個卷積核)，使用pad=1進行填充，輸出尺寸為(13+2*1-3)/1+1=13，未使用池化層;

　　　　　　　　　　　　　　　　　　　　　　　　　　　　圖8 Conv4數據流圖

　　Conv5對應的數據流圖如下，輸入為13*13*384的圖像，使用384個3*3*384的卷積核進行卷積運算(每個GPU 192個卷積核)，使用pad=1進行填充，輸出尺寸為(13+2*1-3)/1+1=13，隨后使用3*3的池化層進行下采樣，步長為2，對應的輸出尺寸為(13+2*0-3)/2+1=6;

　　　　　　　　　　　　　　　　　　　　　　　　　　　　圖9 Conv5數據流圖

　　Fc6對應的數據流圖如下

　　　　　　　　　　　　　　　　　　　　　　　　　　　　圖10 Fc6數據流圖

　　Fc7對應的數據流圖如下

　　　　　　　　　　　　　　　　　　　　　　　　　　　　圖11 Fc7數據流圖

　　Fc8對應的數據流圖

　　　　　　　　　　　　　　　　　　　　　　　　　　　　圖12 Fc8數據流圖

　　AlexNet的創新性主要在於：

　　(1)數據集增強

　　　常見的數據集增強方法包含：水平翻轉、隨機裁剪、平移變換、顏色及光照變換，AlexNet通過數據集增強方式將訓練數據擴大了2048倍，對模型的訓練起了非常重要的作用;

　　(2)Dropout

　　　Dropout是AlexNet的很大一個創新，通過隨機忽略神經元，對於防止過擬合起到了極大的作用;

　　(3)ReLU激活函數

　　　用ReLU代替了傳統的Tanh或者（Sigmoid）Logistic，具有前向及偏導計算非常簡單的特點，同時驗證了ReLU在更深的網絡超過Sigmoid，不容易發生梯度發散問題;

　　(4)LRN

　　　局部響應歸一化，對局部神經元的活動創建競爭機制，這個策略貢獻了1.2%的Top-5錯誤率;

　　(5)Overlapping

　　　使用最大池化替代平均池化，避免了此前使用平均池化出現的模糊效應；

　　　使用重疊池化意味着池化層的步長比池化核的對應邊要小，這個策略貢獻了0.3%的Top-5錯誤率;

VGGNet

　　　Paper: https://arxiv.org/pdf/1409.1556.pdf

　　　VGGNet由牛津大學的Visual Geometry Group提出，其突出貢獻在於其開創性的證明使用小的卷積核，通過增加網絡深度可以提高卷積神經網絡的表達能力，論文中使用六種不同的網絡結構進行測試，為了便於對比，統一使用3*3的卷積核(stride=1)和size為2*2的池化層；

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　圖13 VGGNet網絡配置

　　　１）論文使用的網絡配置如圖10所示，網絡深度由於11層（８個卷積層和３個全連接層）到19層（16個卷積層和３個全連接層）不等，卷積層寬度由64到512，前兩個全連接層均有4096個通道，第三個全連接層有1000個通道，用於分類；

　　　２）AlexNet和ZFNet在第一層卷積層均使用11*11的卷積層，而VGGNet統一使用3*3的卷積層（stride=1），就感受野來說，兩個3*3的卷積層疊加與一個（1+3+1）*（1+3+1）的卷積層具有相同的效果，三個3*3的卷積層疊加與一個（1+1+3+1+1）*（1+1+3+1+1）的卷積層具有相同的效果；

　　　　使用多個小卷積核堆疊的方式代替一個大的卷積核主要有兩個優勢：一，包含多個ReLU使決策函數更有判別性；二，大大減少了參數，降低了對計算資源和內存的需求，也可以理解為單層大卷積核的一種正則化操作，減少了過擬合的風險；

　　　３）其中網絡Ａ和A-LRN的對比用於驗證LRN（局部響應標准化）在該訓練集上是否有效果，實踐證明，這種標准化操作在ILSVRC數據集上並沒有提升性能(在AlexNet被證明是有效的)，卻導致更多的內存消耗和計算時間；

　　　４）對於VGGNet的訓練，通常使用較淺的網絡Ａ對參數進行隨機初始化，隨后使用淺層網絡對深層網絡進行初始化（即通俗意義上的使用預訓練模型進行初始化），達到加速訓練的效果　　　

GoogLeNet Inception V1

　　　Paper: https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Szegedy_Going_Deeper_With_2015_CVPR_paper.pdf

　　一般來說，提升網絡性能最直接的辦法就是增加網絡深度和寬度，但也意味着巨量的參數，同時容易產生過擬合並也大大增加了計算量。2014年《Going deeper with convolutions》一文中提出解決這兩個問題的根本方法是將全連接甚至一般的卷積都轉化為稀疏連接。另一方面有文獻指出，對於大規模稀疏的神經網路，可以通過分析激活值的統計特性和對高度相關的輸出進行聚類來逐層構建出一個最優網絡。這點表明臃腫的稀疏網絡可能被不失性能地簡化。

　　所以優化的目標就變成了：既能保持網絡結構的稀疏性，又能利用密集矩陣的高計算性能。據此論文借鑒了NIN（Network in Network）的思路，提出了Inception的結構來實現此目的。