Batchnorm

本文转载自查看原文 2018-10-11 17:58 1260

Internal Covariate Shift:每一次参数迭代更新后，上一层网络的输出数据经过这一层网络计算后，数据的分布会发生变化，为下一层网络的学习带来困难（神经网络本来就是要学习数据的分布，要是分布一直在变，学习就很难了）

Covariate Shift:由于训练数据和测试数据存在分布的差异性，给网络的泛化性和训练速度带来了影响。

归一化的效果图：

$B a t c h n o r m$

若将每一层输出后的数据都归一化到0均值，1方差，满足正太分布，其完全学习不到输入数据的特征，因为，费劲心思学习到的特征分布被归一化了。

加入可训练的参数做归一化，那就是 $B a t c h N o r m$

$B a t c h N o r m$

$β$

def Batchnorm_simple_for_train(x, gamma, beta, bn_param):
"""
param:x    : 输入数据，设shape(B,L)
param:gama : 缩放因子  γ
param:beta : 平移因子  β
param:bn_param   : batchnorm所需要的一些参数
    eps      : 接近0的数，防止分母出现0
    momentum : 动量参数，一般为0.9， 0.99， 0.999
    running_mean ：滑动平均的方式计算新的均值，训练时计算，为测试数据做准备
    running_var  : 滑动平均的方式计算新的方差，训练时计算，为测试数据做准备
"""
    running_mean = bn_param['running_mean']  #shape = [B]
    running_var = bn_param['running_var']    #shape = [B]
    results = 0. # 建立一个新的变量

    x_mean=x.mean(axis=0)  # 计算x的均值
    x_var=x.var(axis=0)    # 计算方差
    x_normalized=(x-x_mean)/np.sqrt(x_var+eps)       # 归一化
    results = gamma * x_normalized + beta            # 缩放平移

    running_mean = momentum * running_mean + (1 - momentum) * x_mean
    running_var = momentum * running_var + (1 - momentum) * x_var

    #记录新的值
    bn_param['running_mean'] = running_mean
    bn_param['running_var'] = running_var 

    return results , bn_param

batchnorm mean var 是根据样本计算出来的，而不是反向传播计算而来的

在训练过程中，mean var参数的更新由原来的running_mean*0.9加上新计算的x_mean*0.1

batchnorm的优点：

1.较大的学习率极大的提高了学习速度。

2.batchnorm本身也是一种正则方式，可以代替其他的正则化方法，如dropout。

3.batchnorm降低了数据之间的绝对差异，更多的考虑相对差异，在分类任务上有更好的效果。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 BatchNorm Batchnorm原理详解 caffe中的BatchNorm层【学习笔记】Devils in BatchNorm Pytorch中的BatchNorm 对于batchnorm层的理解基础 | batchnorm原理及代码详解 pytorch——nn.BatchNorm1d() Pytorch-nn.BatchNorm2d() 干货 | 这可能全网最好的BatchNorm详解