LeNet比較經典,就從LeNet開始,其PyTorch實現比較簡單,通過LeNet為基礎引出下面的VGG-Net和ResNet。
LeNet
LeNet比較經典的一張圖如下圖
LeNet-5共有7層,不包含輸入,每層都包含可訓練參數;每個層有多個Feature Map,每個FeatureMap通過一種卷積濾波器提取輸入的一種特征,然后每個FeatureMap有多個神經元。
1.INPUT層-輸入層
- 輸入圖像的尺寸統一歸一化為: 32 x 32。
2.C1層 卷積層
- 輸入圖片:32 x 32
- 卷積核大小:5 x 5
- 卷積核種類:6
- 輸出featuremap大小:28 x 28 (32-5+1)=28
- 神經元數量:28 x 28 x 6
- 可訓練參數:(5 x 5+1) x 6(每個濾波器5 x 5=25個unit參數和一個bias參數,一共6個濾波器)
- 連接數:(5 x 5+1) x 6 x 28 x 28=122304
3.S2層 池化層(下采樣層)
- 輸入:28 x 28
- 采樣區域:2 x 2
- 采樣方式:4個輸入相加,乘以一個可訓練參數,再加上一個可訓練偏置。結果通過sigmoid
- 采樣種類:6
- 輸出featureMap大小:14 x14(28/2)
- 神經元數量:14 x 14 x 6
- 可訓練參數:2 x 6(和的權+偏置)
- 連接數:(2 x 2+1) x 6 x 14 x 14
- S2中每個特征圖的大小是C1中特征圖大小的1/4。
4.C3層 卷積層
5.S4層 池化層(下采樣層)
6.C5層 卷積層
7.F6層 全連接層
- 輸入:c5 120維向量
- 計算方式:計算輸入向量和權重向量之間的點積,再加上一個偏置,結果通過sigmoid函數輸出。
- 可訓練參數:84 x (120+1)=10164
8.output層 全連接層
- Output層也是全連接層,共有10個節點,分別代表數字0到9,且如果節點i的值為0,則網絡識別的結果是數字i。采用的是徑向基函數(RBF)的網絡連接方式。假設x是上一層的輸入,y是RBF的輸出,則RBF輸出的計算方式是:
-
上式w_ij 的值由i的比特圖編碼確定,i從0到9,j取值從0到7 x 12-1。RBF輸出的值越接近於0,則越接近於i,即越接近於i的ASCII編碼圖,表示當前網絡輸入的識別結果是字符i。該層有84x10=840個參數和連接。
下面基於PyTorch實現LeNet
1 #coding=utf-8 2 import torch 3 import torch.nn as nn 4 import torch.nn.functional as F 5 from torch.autograd import Variable 6 7 class Net(nn.Module): 8 #定義Net的初始化函數,這個函數定義了該神經網絡的基本結構 9 def __init__(self): 10 super(Net, self).__init__() 11 #復制並使用Net的父類的初始化方法,即先運行nn.Module的初始化函數 12 self.conv1 = nn.Conv2d(1, 6, 5) 13 # 定義conv1函數的是圖像卷積函數:輸入為圖像(1個頻道,即灰度圖),輸出為 6張特征圖, 卷積核為5x5正方形 14 self.conv2 = nn.Conv2d(6, 16, 5) 15 # 定義conv2函數的是圖像卷積函數:輸入為6張特征圖,輸出為16張特征圖, 卷積核為5x5正方形 16 self.fc1 = nn.Linear(16*5*5, 120) 17 # 定義fc1(fullconnect)全連接函數1為線性函數:y = Wx + b,並將16*5*5個節點連接到120個節點上。 18 self.fc2 = nn.Linear(120, 84) 19 #定義fc2(fullconnect)全連接函數2為線性函數:y = Wx + b,並將120個節點連接到84個節點上。 20 self.fc3 = nn.Linear(84, 10) 21 #定義fc3(fullconnect)全連接函數3為線性函數:y = Wx + b,並將84個節點連接到10個節點上。 22 23 #定義該神經網絡的向前傳播函數,該函數必須定義,一旦定義成功,向后傳播函數也會自動生成(autograd) 24 def forward(self, x): 25 x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2)) 26 #輸入x經過卷積conv1之后,經過激活函數ReLU,使用2x2的窗口進行最大池化Max pooling,然后更新到x。 27 x = F.max_pool2d(F.relu(self.conv2(x)), 2) 28 #輸入x經過卷積conv2之后,經過激活函數ReLU,使用2x2的窗口進行最大池化Max pooling,然后更新到x。 29 x = x.view(-1, self.num_flat_features(x)) 30 #view函數將張量x變形成一維的向量形式,總特征數並不改變,為接下來的全連接作准備。 31 x = F.relu(self.fc1(x)) 32 #輸入x經過全連接1,再經過ReLU激活函數,然后更新x 33 x = F.relu(self.fc2(x)) 34 #輸入x經過全連接2,再經過ReLU激活函數,然后更新x 35 x = self.fc3(x) 36 #輸入x經過全連接3,然后更新x 37 return x 38 39 #使用num_flat_features函數計算張量x的總特征量(把每個數字都看出是一個特征,即特征總量),比如x是4*2*2的張量,那么它的特征總量就是16。 40 def num_flat_features(self, x): 41 size = x.size()[1:] 42 # 這里為什么要使用[1:],是因為pytorch只接受批輸入,也就是說一次性輸入好幾張圖片,那么輸入數據張量的維度自然上升到了4維。【1:】讓我們把注意力放在后3維上面 43 num_features = 1 44 for s in size: 45 num_features *= s 46 return num_features 47 48 49 net = Net() 50 net 51 52 # 以下代碼是為了看一下我們需要訓練的參數的數量 53 print net 54 params = list(net.parameters()) 55 56 k=0 57 for i in params: 58 l =1 59 print "該層的結構:"+str(list(i.size())) 60 for j in i.size(): 61 l *= j 62 print "參數和:"+str(l) 63 k = k+l 64 65 print "總參數和:"+ str(k)
VGG
VGG結構圖
VGG-16
Faster R-CNN用到了VGG-16
彩色圖片輸入到網絡,白色框是卷積層,紅色是池化,藍色是全連接層,棕色框是預測層。預測層將全連接層輸出的信息轉化為相應的類別概率,而起到分類作用。
VGG16 是13個卷積層+3個全連接層疊加而成。
1 class Vgg16(torch.nn.Module): 2 def __init__(self): 3 super(Vgg16, self).__init__() 4 self.conv1_1 = nn.Conv2d(3, 64, kernel_size=3, stride=1, padding=1) 5 self.conv1_2 = nn.Conv2d(64, 64, kernel_size=3, stride=1, padding=1) 6 7 self.conv2_1 = nn.Conv2d(64, 128, kernel_size=3, stride=1, padding=1) 8 self.conv2_2 = nn.Conv2d(128, 128, kernel_size=3, stride=1, padding=1) 9 10 self.conv3_1 = nn.Conv2d(128, 256, kernel_size=3, stride=1, padding=1) 11 self.conv3_2 = nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1) 12 self.conv3_3 = nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1) 13 14 self.conv4_1 = nn.Conv2d(256, 512, kernel_size=3, stride=1, padding=1) 15 self.conv4_2 = nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1) 16 self.conv4_3 = nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1) 17 18 self.conv5_1 = nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1) 19 self.conv5_2 = nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1) 20 self.conv5_3 = nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1) 21 22 def forward(self, X): 23 h = F.relu(self.conv1_1(X)) 24 h = F.relu(self.conv1_2(h)) 25 relu1_2 = h 26 h = F.max_pool2d(h, kernel_size=2, stride=2) 27 28 h = F.relu(self.conv2_1(h)) 29 h = F.relu(self.conv2_2(h)) 30 relu2_2 = h 31 h = F.max_pool2d(h, kernel_size=2, stride=2) 32 33 h = F.relu(self.conv3_1(h)) 34 h = F.relu(self.conv3_2(h)) 35 h = F.relu(self.conv3_3(h)) 36 relu3_3 = h 37 h = F.max_pool2d(h, kernel_size=2, stride=2) 38 39 h = F.relu(self.conv4_1(h)) 40 h = F.relu(self.conv4_2(h)) 41 h = F.relu(self.conv4_3(h)) 42 relu4_3 = h 43 44 return [relu1_2, relu2_2, relu3_3, relu4_3]
Jianwei Yang 大神 Faster R-CNN中的vgg16 code
1 import torch 2 import torch.nn as nn 3 import torch.nn.functional as F 4 from torch.autograd import Variable 5 import math 6 import torchvision.models as models 7 from model.faster_rcnn.faster_rcnn import _fasterRCNN 8 import pdb 9 10 class vgg16(_fasterRCNN): 11 def __init__(self, classes, pretrained=False, class_agnostic=False): 12 self.model_path = 'data/pretrained_model/vgg16_caffe.pth' 13 self.dout_base_model = 512 14 self.pretrained = pretrained 15 self.class_agnostic = class_agnostic 16 17 _fasterRCNN.__init__(self, classes, class_agnostic) 18 19 def _init_modules(self): 20 vgg = models.vgg16() 21 if self.pretrained: 22 print("Loading pretrained weights from %s" %(self.model_path)) 23 state_dict = torch.load(self.model_path) 24 vgg.load_state_dict({k:v for k,v in state_dict.items() if k in vgg.state_dict()}) 25 26 vgg.classifier = nn.Sequential(*list(vgg.classifier._modules.values())[:-1]) 27 28 # not using the last maxpool layer 29 self.RCNN_base = nn.Sequential(*list(vgg.features._modules.values())[:-1]) 30 31 # Fix the layers before conv3: 32 for layer in range(10): 33 for p in self.RCNN_base[layer].parameters(): p.requires_grad = False 34 35 # self.RCNN_base = _RCNN_base(vgg.features, self.classes, self.dout_base_model) 36 37 self.RCNN_top = vgg.classifier 38 39 # not using the last maxpool layer 40 self.RCNN_cls_score = nn.Linear(4096, self.n_classes) 41 42 if self.class_agnostic: 43 self.RCNN_bbox_pred = nn.Linear(4096, 4) 44 else: 45 self.RCNN_bbox_pred = nn.Linear(4096, 4 * self.n_classes) 46 47 def _head_to_tail(self, pool5): 48 49 pool5_flat = pool5.view(pool5.size(0), -1) 50 fc7 = self.RCNN_top(pool5_flat) 51 52 return fc7
ResNet
使用了一種連接方式叫做“shortcut connection”,差不多就是抄近道的意思。