第四講_圖像識別之圖像分類Image Classification
- 目錄
圖片分類
- 性能指標:top1,top5
- ILSVRC:每種任務數據集不一樣
- imageNet:根據WorldNet組織的圖片集,為每個名詞提供平均1000張圖片
- 網絡進化
卷積神經網絡(CNN)
- 基礎神經網絡:
- 神經元(輸入,w,b,sigmoid)
- 優化:梯度下降,BP反向傳播(鏈式規則),3~5層
- 優化交叉熵(之前是均方誤差):批量梯度下降,隨機梯度下降(學習率、步長,擾動->動量算法momentum)
- 構建CNN的基本層
卷積層
- 不同的損失函數:注意跳出鞍點(在一個方向極小值,另一個方向極大值)
- ReLU激活函數:分段線性函數,無飽和問題,明顯減輕梯度消失問題
- 卷積步長大於1,有降維的作用
池化層
- 特征融合,降維
全連接層
Softmax層
工程實際
AlexNet
- 基本概述
- 局部響應歸一化
Network-in-Network(NiN)
- 1*1卷積層,實現特征的降維,這個就是卷積核的大小
VGG網絡-2014
- 卷積核的分解
- 由於最后的卷積層--->第一個全連接;就是需要全局卷積,這里的卷積核大小是超參數,是固定的參數,所以對輸入圖片的大小有要求;而ResNet對輸入圖片大小沒有要求
- 網絡結構,D,E結構用的多一些
GoogLeNet網絡
- 進化順序
- Inception V1網絡
- 和ResNet一樣有基本的模塊
- 取消全連接層;最后的卷積層--->第一個全連接需要的參數最多
- 網絡結構
- 網絡參數
- 兩個輔助分類器:深度網絡中,梯度回傳到最初層,嚴重消失;有效加速收斂,測試階段不使用
Inception V2網絡
- 核心有批歸一化
- 一批一批batch進行處理,每一批在第k個通道進行均值方差歸一化操作
Inception V3網絡
-
卷積進行分解:非對稱卷積;三種分解方案
-
高效的降尺寸:避免表達瓶頸
-
網絡整體框架
ResNet殘差網絡
- skip/shortcut connection
- 虛線有降維作用
- 往更深的走
- 原始輸入改為256,優化就是先通道降維,然后卷積,升維
- 網絡整體情況:5個卷積組
Inception V4網絡
- 引入殘差
ResNeXt網絡
- 概況
- 1**1卷積就相當於全連接降通道數
- 32**4d塊,保證參數量不變;32*4=128通道是普通64通道的2倍
- 分支數就是基數,網絡寬度就是分支數*每個分支的通道數
CNN設計准則
-
避免信息瓶頸:數據量H**W(尺度大小)*C(通道數)變換要緩慢;通道數要不能彌補尺度減小,但要緩慢
-
通道(卷積核)數量保持在可控范圍內
-
感受野要足夠大
-
分組策略--降低計算量
-
低秩分解
實驗結果
- 代碼實驗ResNet