其發表的原論文地址:https://arxiv.org/abs/1409.1556
參考來自:
up主的b站鏈接:https://space.bilibili.com/18161609/channel/index
up主的CSDN博客:https://blog.csdn.net/qq_37541097/article/details/103482003
up主GitHub:https://github.com/WZMIAOMIAO/deep-learning-for-image-processing
VGG 在2014年由牛津大學著名研究組 VGG(Visual Geometry Group)提出,斬獲該年 ImageNet 競賽中 Localization Task(定位任務)第一名和 Classification Task(分類任務)第二名。共提及出了四種不同深度層次的網絡結構,分別是11、13、16、19層。
這些網絡結構如圖所示
conv3-64表示使用64個3×3的卷積核 ,maxpool表示使用2×2的最大值池化核,FC-4096表示具有4096個神經元的全連接層(其中FC-1000未使用ReLU激活函數,前兩個有使用),注意,對於卷積核,默認stride為1,spadding為1,size為3*3,采用的池化核是2*2,
最常用的網絡結構有兩個,分別是:VGG16(圖中的D)和VGG19(圖中的E),二者最大的差別就是網絡深度的不同。
感受野
輸出feature map上的一個單元 對應 輸入層上的區域大小。以如下圖為例,輸出層 layer3 中一個單元 對應 輸入層 layer2 上區域大小為2×2(池化操作),對應輸入層 layer1 上大小為5×5
計算公式為:F(i)=(F(i+1)−1)×Stride +Ksize
- F(i)為第 i層感受野
- Stride為第 i層的步距
- Ksize為 卷積核 或 池化核 尺寸
以圖中計算:
Feature map:F(3)=1
Pool1:F(2)=(1−1)×2+2=2
Conv1: F(1)=(2−1)×2+3=5
論證:兩個3×3的卷積核感受野相當於一個5x5的卷積核,三個3×3的卷積核感受野相當於一個7x7的卷積核
Feature map: F=1
Conv3x3(3): F=(1−1)×1+3=3
Conv3x3(2): F=(3−1)×1+3=5
Conv3x3(1): F=(5−1)×1+3=7
pytorch搭建VGG網絡:
分為卷積層提取特征和全連接層分類兩個模塊:
代碼如下:

import torch.nn as nn import torch class VGG(nn.Module): def __init__(self, features, num_classes=1000, init_weights=False): super(VGG, self).__init__() self.features = features # 卷積層提取特征 self.classifier = nn.Sequential( # 全連接層進行分類 nn.Dropout(p=0.5), nn.Linear(512*7*7, 2048), nn.ReLU(True), nn.Dropout(p=0.5), nn.Linear(2048, 2048), nn.ReLU(True), nn.Linear(2048, num_classes) ) if init_weights: self._initialize_weights() def forward(self, x): # N x 3 x 224 x 224 x = self.features(x) # N x 512 x 7 x 7 x = torch.flatten(x, start_dim=1) # N x 512*7*7 x = self.classifier(x) return x def _initialize_weights(self): for m in self.modules(): if isinstance(m, nn.Conv2d): # nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu') nn.init.xavier_uniform_(m.weight) if m.bias is not None: nn.init.constant_(m.bias, 0) elif isinstance(m, nn.Linear): nn.init.xavier_uniform_(m.weight) # nn.init.normal_(m.weight, 0, 0.01) nn.init.constant_(m.bias, 0)
其他內容待補充。。。。。。