RDrop ----Regularized Dropout for Neural Networks------微軟2021年6月底發布新的解決方案
在訓練過程中,為了節省訓練時間,並不是將同一個輸入輸入兩次,而是將輸入句子復制一遍,然后拼接在一起,
Dropout使用技巧
1 經過驗證,隱含節點dropout率等於0.5的時候最佳,此時dropout隨機生成的網絡結構最多,Dropout也可以用在輸入層,作為一種添加噪音的方法
2 通常在網絡中Dropout率設置為0.2--0.5之間,0.2是一個比較好的起點,太低的作用有限,太高導致網絡訓練不充分。
3 當在較大的網絡使用dropout,效果可能會更好些
4 再輸入層和隱藏層使用dropout,或者在網絡的每一層都是用dropout效果好一點
5 優化器使用較高的學習率和較大的動量值。
6 限制網路權重的大小,大的學習率可能會導致非常大的網絡權重,對網絡權重大小進行約束。