常见激活函数求导 - 码上欢乐

相关内容简体繁体

常见激活函数求导

本文转载自查看原文 2021-04-09 17:13 374

废话少说，直接开干！

Sigmoid

函数形式

求导过程

如果求导已经还给数学老师了的话，可以参考链式法则版本：Sigmoid 函数的求导过程

Tanh

函数形式

求导过程

链式法则求导：Tanh 激活函数及求导过程

ReLU

太简单，跳过

SoftMax

SoftMax常被用作多分类输出层的激活函数，用来将输出结果转化为概率。SoftMax数学特性很好，因为其与交叉熵损失（log损失）函数一起求导，求导结果刚好等于预测值减去label。

SoftMax函数形式

交叉熵损失函数形式

其中为可能的类别数，为样本标签，通常是一个大小为N维的one-hot向量，即，只有 $y_j = 1$ ，其余位置值为零。

所以损失函数又可以表示为下面的形式

SoftMax函数的输入是一个向量

经过SoftMax函数后，输出另一个向量，且向量中所有值的和为1

我们的目标是求损失函数 $L$ 对向量的导数，即.

根据链式法则有：

其中是一个标量，标量对向量求导结果还是一个向量，求导公式如下：

和都是向量，向量对向量求导，结果为雅可比矩阵，求导公式如下：

逐步求导：

1、求

由 $L=-y_jln(a_j) = -ln(a_j)$ ，可知最终的Loss只跟 $a_j$ 有关。

2、求

向量对向量求导的公式刚刚已经做过介绍，是一个雅可比矩阵

由于只有第j列不为0，由矩阵乘法，其实我们只要求第j行，也即,

，其中。

（1）当时

$\frac{\partial{a_j}}{\partial{z_j}} = \frac{e^{z_j}\sum_{k}^{n}{e^{z_k}}-e^{z_j}e^{z_j}}{(\sum_{k}^{n}{e^{z_k}})^2} = a_j-a_j^2$

$\frac{\partial{L}}{\partial{z_j}} = (a_j-a_j^2)*-\frac{1}{a_j} = a_j-1$

（2）当 $i\ne j$ 时

$\frac{\partial{L}}{\partial{z_i}} = -a_ja_i*-\frac{1}{a_j}=a_i$

综上所述

推荐一个好用的 LaTeX 公式编辑器：https://www.latexlive.com/##

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 常见激活函数介绍激活函数激活函数及其梯度 ReLU激活函数常用的激活函数激活函数的饱和性 3-6 激活函数的导数常用激活函数总结 caffe之（三）激活函数层深度学习激活函数们

粤ICP备18138465号 © 2018-2025 CODEPRJ.COM