常用激活函数

本文转载自查看原文 2020-05-02 18:03 1010 tensorflow2.0.0 notes/ 深度学习

作用：

线性模型的表达能力不够，引入激活函数来增加非线性因素，并且能逼近任何一个非线性函数

Sigmoid

Sigmoid 函数也叫 Logistic 函数，定义为

\[Sigmoid:=\frac{1}{1+e^{-x}} \]
它的一个优良特性就是能够把 𝑥 ∈ 𝑅 的输入压缩到 𝑥∈[0,1]区间，这个区间的数值在机器学习常用来表示以下含义：
1. 概率分布 [0,1] 区间的输出和概率的分布范围契合，可以通过Sigmoid函数将输出转译为概率输出
2. 信号强度一般可以将 0~1理解为某种信号的强度，如像素的颜色强度，1代表当前通道颜色最强，0代表当前通道无颜色；抑或代表门控值（Gate）的强度，1代表当前门控全部开放，0代表门控关闭
Sigmoid 函数连续可导，其函数图如下，相对于阶跃函数，可以直接利用梯度下降算法优化网络参数，应用广泛。

阶跃函数：

不足：在输入值较大或较小时，易出现梯度值接近于 0 的现象，称为梯度弥散现象，网络参数长时间得不到更新，很难训练较深层次的网络模型。

在 TensorFlow 中，可以通过 tf.nn.sigmoid 实现 Sigmoid 函数
Softmax

将输出值映射到 [0,1] 区间，且满足所有的输出值之和为 1 的特性，适用于多分类问题，表示每个类别的概率。

其定义为：

\[𝜎(𝑧_i) =\frac{e^{z_i}}{\sum_{j=1}^{d_{out}}{e^{z_j}}} \]
不足：容易因输入值偏大发生数值溢出现象
同样在计算交叉熵时，也会出现数值溢出的问题，因此，tensorflow 中提供了一个统一的接口，将两者同时实现，函数式接口为：
```
# 当 from_logits=False 时，表示 y_pred 是经过 Softmax 函数的输出 
tf.keras.losses.categorical_crossentropy(y_true, y_pred, from_logits=False)
```
在 TensorFlow 中，可以通过 tf.nn.softmax 实现 Softmax 函数
ReLU(Rectified Linear Unit，修正线性单元)

ReLU 针对 sigmoid 的不足做出了改进。2012 年提出的 8 层 AlexNet 首次采用了 ReLU 作为激活函数，使得网络参数达到了 8 层。它的定义为：

\[ReLU(x):=max(0,x) \]
函数图如下：

可以看到其对于小于 0 的值全部抑制为0，对于正数则直接输出，这种单边抑制来源于生物学。

不足：ReLU 函数在 x < 0 时梯度值恒为 0 ，也可能会造成梯度弥散现象

在 TensorFlow 中，可以通过 tf.nn.relu 实现 ReLU 函数
LeakyReLU

为了克服 ReLU 的问题，提出了 LeakyReLU 函数，其表达式为：

\[LeakyReLU=\begin{cases} x，x≥0\\ p*x， x＜0\end{cases} \]
其中 p 为用户自行设置的某较小数值的超参数，如 0.02 等。当 p = 0 时，LeakyReLU 函数退化为 ReLU 函数；当 p ≠ 0时，x < 0 能够获得较小的梯度值 p，从而避免出现梯度弥散现象。

函数图如下：

在 TensorFlow 中，可以通过 tf.nn.leaky_relu 实现 LeakyReLU 函数
Tanh

Tanh 函数能够将 x ∈ R 的输入压缩到 [-1,1] 区间，定义为：

\[tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}=2*sigmoid(2x)-1 \]
可以看到 tanh 激活函数可通过 Sigmoid 函数缩放平移后实现，函数图如下：

在 TensorFlow 中，可以通过 tf.nn.tanh 实现 tanh 函数

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 常用的激活函数常用激活函数比较常用激活函数总结深度学习中常用的激活函数深度学习常用激活函数神经元与常用的激活函数机器学习中常用激活函数和损失函数为什么要引入激活函数？激活函数 SELU 激活函数总结