RDrop ----Regularized Dropout for Neural Networks------微软2021年6月底发布新的解决方案
在训练过程中,为了节省训练时间,并不是将同一个输入输入两次,而是将输入句子复制一遍,然后拼接在一起,
Dropout使用技巧
1 经过验证,隐含节点dropout率等于0.5的时候最佳,此时dropout随机生成的网络结构最多,Dropout也可以用在输入层,作为一种添加噪音的方法
2 通常在网络中Dropout率设置为0.2--0.5之间,0.2是一个比较好的起点,太低的作用有限,太高导致网络训练不充分。
3 当在较大的网络使用dropout,效果可能会更好些
4 再输入层和隐藏层使用dropout,或者在网络的每一层都是用dropout效果好一点
5 优化器使用较高的学习率和较大的动量值。
6 限制网路权重的大小,大的学习率可能会导致非常大的网络权重,对网络权重大小进行约束。