參數初始化之Xavier初始化


參考:

https://blog.csdn.net/VictoriaW/article/details/73000632

https://blog.csdn.net/dss_dssssd/article/details/83959474

https://ptorch.com/docs/1/nn-init

https://prateekvjoshi.com/2016/03/29/understanding-xavier-initialization-in-deep-neural-networks/

https://zhuanlan.zhihu.com/p/27919794

文章:《Understanding the difficulty of training deep feedforward neural networks

摘要

盡管在2006年之前,似乎沒有成功地訓練深度多層神經網絡,但是從那以后,已經顯示出幾種算法可以成功地訓練它們,並且實驗結果表明,較深層的架構與較不深層的架構相比具有優越性。所有這些實驗結果都是通過新的初始化或訓練機制獲得的。我們的目標是更好地理解為何深度學習神經網絡從隨機初始化得到的標准梯度下降效果不佳,以便更好地了解這些最近的相對成功的算法並在將來幫助設計更好的算法。我們首先觀察非線性激活函數的影響。我們發現logistic sigmoid activation由於其平均值而不適用於具有隨機初始化的深層網絡,這會特別導致頂部隱藏層達到飽和。出乎意料的是,我們發現飽和單位可以自行移出飽和,盡管速度很慢,並且可以解釋訓練神經網絡時有時會看到的平穩狀態。我們發現,飽和程度較低的新非線性通常會是有益的。最后,我們研究了激活和梯度在層間以及訓練過程中如何變化,以為當與每一層關聯的雅可比行列式的奇異值遠非1時訓練可能會更加困難。基於這些考慮,我們提出了一種新的初始化方法帶來更快收斂的方案。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM