深度學習——Xavier初始化方法

本文轉載自查看原文 2017-10-19 14:45 3172 Deep learning/ 機器學習/ 神經網絡

“Xavier”初始化方法是一種很有效的神經網絡初始化方法，方法來源於2010年的一篇論文《Understanding the difficulty of training deep feedforward neural networks》，可惜直到近兩年，這個方法才逐漸得到更多人的應用和認可。

為了使得網絡中信息更好的流動，每一層輸出的方差應該盡量相等。

基於這個目標，現在我們就去推導一下：每一層的權重應該滿足哪種條件。

文章先假設的是線性激活函數，而且滿足0點處導數為1，即
這里寫圖片描述

現在我們先來分析一層卷積：
這里寫圖片描述
其中ni表示輸入個數。

根據概率統計知識我們有下面的方差公式：
這里寫圖片描述

特別的，當我們假設輸入和權重都是0均值時（目前有了BN之后，這一點也較容易滿足），上式可以簡化為：
這里寫圖片描述

進一步假設輸入x和權重w獨立同分布，則有：
這里寫圖片描述

於是，為了保證輸入與輸出方差一致，則應該有：
這里寫圖片描述

對於一個多層的網絡，某一層的方差可以用累積的形式表達：
這里寫圖片描述

特別的，反向傳播計算梯度時同樣具有類似的形式：
這里寫圖片描述

綜上，為了保證前向傳播和反向傳播時每一層的方差一致，應滿足：

這里寫圖片描述

但是，實際當中輸入與輸出的個數往往不相等，於是為了均衡考量，最終我們的權重方差應滿足：

———————————————————————————————————————
這里寫圖片描述
———————————————————————————————————————

學過概率統計的都知道 [a,b] 間的均勻分布的方差為：
這里寫圖片描述

因此，Xavier初始化的實現就是下面的均勻分布：

——————————————————————————————————————————
這里寫圖片描述
———————————————————————————————————————————

下面，我們來看一下caffe中具體是怎樣實現的，代碼位於include/caffe/filler.hpp文件中。

template <typename Dtype> class XavierFiller : public Filler<Dtype> { public: explicit XavierFiller(const FillerParameter& param) : Filler<Dtype>(param) {} virtual void Fill(Blob<Dtype>* blob) { CHECK(blob->count()); int fan_in = blob->count() / blob->num(); int fan_out = blob->count() / blob->channels(); Dtype n = fan_in; // default to fan_in if (this->filler_param_.variance_norm() == FillerParameter_VarianceNorm_AVERAGE) { n = (fan_in + fan_out) / Dtype(2); } else if (this->filler_param_.variance_norm() == FillerParameter_VarianceNorm_FAN_OUT) { n = fan_out; } Dtype scale = sqrt(Dtype(3) / n); caffe_rng_uniform<Dtype>(blob->count(), -scale, scale, blob->mutable_cpu_data()); CHECK_EQ(this->filler_param_.sparse(), -1) << "Sparsity not supported by this Filler."; } };

由上面可以看出，caffe的Xavier實現有三種選擇

（1） 默認情況，方差只考慮輸入個數：
這里寫圖片描述

（2） FillerParameter_VarianceNorm_FAN_OUT，方差只考慮輸出個數：
這里寫圖片描述

（3） FillerParameter_VarianceNorm_AVERAGE，方差同時考慮輸入和輸出個數：
這里寫圖片描述

之所以默認只考慮輸入，我個人覺得是因為前向信息的傳播更重要一些

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 深度學習中Xavier初始化深度學習中Xavier初始化權值初始化 - Xavier和MSRA方法神經網絡權值初始化方法-Xavier 深度學習模型參數初始化的方法深度學習模型參數初始化的方法參數初始化之Xavier初始化 Jetson AGX Xavier初始化深度學習: 參數初始化深度學習權重初始化