批量歸一化

批量歸一化（batch normalization）層，它能讓較深的神經網絡的訓練變得更加容易。對圖像處理的輸入數據做了標准化處理：處理后的任意一個特征在數據集中所有樣本上的均值為0、標准差為1。標准化處理輸入數據使各個特征的分布相近：這往往更容易訓練出有效的模型。

通常來說，數據標准化預處理對於淺層模型就足夠有效了。隨着模型訓練的進行，當每層中參數更新時，靠近輸出層的輸出較難出現劇烈變化。但對深層神經網絡來說，即使輸入數據已做標准化，訓練中模型參數的更新依然很容易造成靠近輸出層輸出的劇烈變化。這種計算數值的不穩定性通常令我們難以訓練出有效的深度模型。

批量歸一化的提出正是為了應對深度模型訓練的挑戰。在模型訓練時，批量歸一化利用小批量上的均值和標准差，不斷調整神經網絡中間輸出，從而使整個神經網絡在各層的中間輸出的數值更穩定。批量歸一化和下一節將要介紹的殘差網絡為訓練和設計深度模型提供了兩類重要思路。

批量歸一化層

對全連接層和卷積層做批量歸一化的方法稍有不同。

對全連接層做批量歸一化

對卷積層做批量歸一化

對卷積層來說，批量歸一化發生在卷積計算之后、應用激活函數之前。如果卷積計算輸出多個通道，我們需要對這些通道的輸出分別做批量歸一化，且每個通道都擁有獨立的拉伸和偏移參數，並均為標量。設小批量中有 $m$ 需要對該通道中 $m \times p \times q$

預測時的批量歸一化

使用批量歸一化訓練時，我們可以將批量大小設得大一點，從而使批量內樣本的均值和方差的計算都較為准確。將訓練好的模型用於預測時，我們希望模型對於任意輸入都有確定的輸出。因此，單個樣本的輸出不應取決於批量歸一化所需要的隨機小批量中的均值和方差。一種常用的方法是通過移動平均估算整個訓練數據集的樣本均值和方差，並在預測時使用它們得到確定的輸出。可見，和丟棄層一樣，批量歸一化層在訓練模式和預測模式下的計算結果也是不一樣的。

在模型訓練時，批量歸一化利用小批量上的均值和標准差，不斷調整神經網絡的中間輸出，從而使整個神經網絡在各層的中間輸出的數值更穩定。
對全連接層和卷積層做批量歸一化的方法稍有不同。
批量歸一化層和丟棄層一樣，在訓練模式和預測模式的計算結果是不一樣的。
Gluon提供的BatchNorm類使用起來簡單、方便。

批量歸一化代碼實現

 1 import d2lzh as d2l
 2 from mxnet import autograd, gluon, init, nd
 3 from mxnet.gluon import nn
 4 
 5 net = nn.Sequential()
 6 net.add(nn.Conv2D(6, kernel_size=5),
 7         nn.BatchNorm(),
 8         nn.Activation('sigmoid'),
 9         nn.MaxPool2D(pool_size=2, strides=2),
10         nn.Conv2D(16, kernel_size=5),
11         nn.BatchNorm(),
12         nn.Activation('sigmoid'),
13         nn.MaxPool2D(pool_size=2, strides=2),
14         nn.Dense(120),
15         nn.BatchNorm(),
16         nn.Activation('sigmoid'),
17         nn.Dense(84),
18         nn.BatchNorm(),
19         nn.Activation('sigmoid'),
20         nn.Dense(10))
21 lr, num_epochs, batch_size, ctx = 1.0, 5, 256, d2l.try_gpu()
22 
23 net.initialize(ctx=ctx, init=init.Xavier())
24 trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': lr})
25 d2l.train_ch5(net, train_iter, test_iter, batch_size, trainer, ctx,
26               num_epochs)

View Code

殘差網絡（ResNet）

先思考一個問題：對神經網絡模型添加新的層，充分訓練后的模型是否只可能更有效地降低訓練誤差？理論上，原模型解的空間只是新模型解的空間的子空間。也就是說，如果我們能將新添加的層訓練成恆等映射 $f (x) = x$

殘差塊

聚焦於神經網絡局部。下圖所示，設輸入為 $x$ 殘差映射在實際中往往更容易優化。以本節開頭提到的恆等映射作為我們希望學出的理想映射 $f (x)$

ResNet沿用了VGG全 $3 \times 3$

ResNet模型

ResNet的前兩層跟之前介紹的GoogLeNet中的一樣：在輸出通道數為64、步幅為2的 $7 \times 7$

GoogLeNet在后面接了4個由Inception塊組成的模塊。ResNet則使用4個由殘差塊組成的模塊，每個模塊使用若干個同樣輸出通道數的殘差塊。第一個模塊的通道數同輸入通道數一致。由於之前已經使用了步幅為2的最大池化層，所以無須減小高和寬。之后的每個模塊在第一個殘差塊里將上一個模塊的通道數翻倍，並將高和寬減半。接着我們為ResNet加入所有殘差塊。這里每個模塊使用兩個殘差塊。最后，與GoogLeNet一樣，加入全局平均池化層后接上全連接層輸出。每個模塊里有4個卷積層（不計算 $1 \times 1$

殘差塊通過跨層的數據通道從而能夠訓練出有效的深度神經網絡。
ResNet深刻影響了后來的深度神經網絡的設計。

稠密連接網絡（DenseNet）

ResNet中的跨層連接設計引申出了數個后續工作。本節我們介紹其中的一個：稠密連接網絡（DenseNet）。它與ResNet的主要區別如下圖所示。

上圖將部分前后相鄰的運算抽象為模塊

DenseNet的主要構建模塊是稠密塊（dense block）和過渡層（transition layer）。前者定義了輸入和輸出是如何連結的，后者則用來控制通道數，使之不過大。

稠密塊

enseNet使用了ResNet改良版的“批量歸一化、激活和卷積”結構。稠密塊由多個conv_block組成，每塊使用相同的輸出通道數。但在前向計算時，我們將每塊的輸入和輸出在通道維上連結。

過渡層

由於每個稠密塊都會帶來通道數的增加，使用過多則會帶來過於復雜的模型。過渡層用來控制模型復雜度。它通過

DenseNet模型

DenseNet首先使用同ResNet一樣的單卷積層和最大池化層。

類似於ResNet接下來使用的4個殘差塊，DenseNet使用的是4個稠密塊。同ResNet一樣，我們可以設置每個稠密塊使用多少個卷積層。這里我們設成4，從而與上一節的ResNet-18保持一致。稠密塊里的卷積層通道數（即增長率）設為32，所以每個稠密塊將增加128個通道。ResNet里通過步幅為2的殘差塊在每個模塊之間減小高和寬。這里我們則使用過渡層來減半高和寬，並減半通道數。同ResNet一樣，最后接上全局池化層和全連接層來輸出。

在跨層連接上，不同於ResNet中將輸入與輸出相加，DenseNet在通道維上連結輸入與輸出。
DenseNet的主要構建模塊是稠密塊和過渡層。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習之歸一化機器學習歸一化機器學習-數據歸一化及哪些算法需要歸一化 [機器學習]批歸一化和層歸一化機器學習中的歸一化方法機器學習之特征歸一化機器學習之數據歸一化問題機器學習：數據歸一化（Scaler）機器學習之歸一化和標准化總結機器學習做特征歸一化和特征化的原因