● 神经网络为啥用交叉熵。 参考回答: 通过神经网络解决多分类问题时,最常用的一种方式就是在最后一层设置n个输出节点,无论在浅层神经网络还是在CNN中都是如此,比如,在AlexNet中最后的输 ...
.列举常见的一些范数及其应用场景,如L ,L ,L ,L ,Frobenius范数 答:p p 还有p p 有regularization的应用 .简单介绍一下贝叶斯概率与频率派概率,以及在统计中对于真实参数的假设。 答:p .概率密度的万能近似器 答:p : . 上面那一段 .简单介绍一下sigmoid,relu,softplus,tanh,RBF及其应用场景 答:sigmoid和softpl ...
2018-03-03 10:56 2 1503 推荐指数:
● 神经网络为啥用交叉熵。 参考回答: 通过神经网络解决多分类问题时,最常用的一种方式就是在最后一层设置n个输出节点,无论在浅层神经网络还是在CNN中都是如此,比如,在AlexNet中最后的输 ...
的依赖关系和数学操作 2、你有哪些深度学习(rnn、cnn)调参的经验? https://www.j ...
1: LSTM结构推导,为什么比RNN好? 答案:推导forget gate,input gate,cell state, hidden information等的变化;因为LSTM有进有出且当前的c ...
的分布拉回到标准化的分布,使得激活函数的输入值落在激活函数对输入比较敏感的区域,从而使梯度变大,加快学习收 ...
● 深度学习了解多少,有看过底层代码吗?caffe,tf? ● 除了GMM-HMM,你了解深度学习在语音识别中的应用吗? 参考回答: 讲了我用的过DNN-HMM,以及与GMM-HMM的联系与区别;然后RNN+CTC,这里我只是了解,大概讲了一下CTC损失的原理;然后提了一下 ...
目录 定义网络 梯度反向传播 梯度更新 面试时的变相问法 参考资料 BPTT(back-propagation through time)算法是常用的训练RNN的方法,其实本质还是BP算法,只不过RNN处理时间序列数据,所以要基于时间反向传播,故叫随时间反向传播 ...
目录 一元函数的梯度下降法 多元函数的梯度下降法 参考资料 梯度下降是一种迭代式的最优化手段,在机器学习中一般用于求目标函数的极小值点,这个极小值点就是最优的模型内部参数。相比求解析解的手段,GD的通用性更强,所以受到广泛的使用。 一元函数 ...
算法部门的一道面试题。 其实这个题目并不难,我们举一个例子,然后结合pytorch工具做验证。 ...