原文:深度学习面试题33:RNN的梯度更新(BPTT)

目录 定义网络 梯度反向传播 梯度更新 面试时的变相问法 参考资料 BPTT back propagation through time 算法是常用的训练RNN的方法,其实本质还是BP算法,只不过RNN处理时间序列数据,所以要基于时间反向传播,故叫随时间反向传播。 BPTT算法在吴恩达和李宏毅等教授的讲义中只是稍微提及了一下,并没有实际操作。本文就实操了一下,弥补这个空缺并附代码。 定义网络 假设 ...

2020-07-09 21:41 1 990 推荐指数:

查看详情

深度学习面试题35:RNN梯度消失问题(vanishing gradient)

目录   梯度消失原因之一:激活函数   梯度消失原因之二:初始化权重   不同损失函数下RNN梯度消失程度对比   实践中遇到梯度消失怎么办?   参考资料 在实践过程中,RNN的一个缺点是在训练的过程中容易梯度消失。 梯度消失原因之一:激活函数 ...

Sun Jul 12 03:49:00 CST 2020 0 731
深度学习面试题08:梯度消失与梯度爆炸

目录   梯度消失   梯度爆炸   参考资料 以下图的全连接神经网络为例,来演示梯度爆炸和梯度消失: 梯度消失 在模型参数w都是(-1,1)之间的数的前提下,如果激活函数选择的是sigmod(x),那么他的导函数σ’(x ...

Tue Jul 09 04:37:00 CST 2019 0 605
深度学习面试题02:标准梯度下降法

目录   一元函数的梯度下降法   多元函数的梯度下降法   参考资料 梯度下降是一种迭代式的最优化手段,在机器学习中一般用于求目标函数的极小值点,这个极小值点就是最优的模型内部参数。相比求解析解的手段,GD的通用性更强,所以受到广泛的使用。 一元函数 ...

Tue Jul 02 18:08:00 CST 2019 0 558
深度学习面试题30:卷积的梯度反向传播

目录   基础概念   自定义一个网络为例   初始化模型参数   计算卷积核上的梯度   梯度更新   PyTorch实战   参考资料 在很多机器学习的资料中,对梯度反向传播在全连接神经网络的应用介绍的比较多;但是较少有介绍过卷积网络的梯度是如何反向传播的,这也是知乎公司 ...

Wed Jul 01 06:58:00 CST 2020 0 1004
深度学习面试题36:RNN与长程依赖关系(Long-Term Dependencies)

目录   长程依赖关系的解释   为什么传统RNN不能解决长程依赖问题   如何解决长程依赖问题   参考资料 长程依赖关系的解释 句子1:the clouds are in the (). 对语言模型而言,这里的()很容易就能 ...

Tue Jul 14 07:01:00 CST 2020 0 1439
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM