Scaled Exponential Linear Unit

本文轉載自查看原文 2018-06-26 20:39 895 Data Mining & ML

https://www.bilibili.com/video/av9770302/?p=11

Relu

Parametric Relu就是把leaky部分的斜率學出來，而不是指定

還有一種變體是，Randomized Relu，就是說這個斜率是每次隨機的

Scaled就是都乘上一個lamda

並且這里給出了alpha和lamda的取值，

這個是推導出來的

這里如果我們假設所有輸入的a的分布為，mean=0， variance=1

所有參數w的分為也是，mean=0， variance=1/K (這個取值上面算出來的，為了保證z的variance為1)

就能得到z的分布也符合mean=0，variance=1

雖然這里對於a1...aK的分布沒有假設，但是我們可以假設z的分布式是符合高斯分布的，根據中心極限定理

現在的問題是對於z經過SELU得到a，如果還要保證mean=0，variance=1，求alpha，lamda參數，求出來的值就是上面給出的

看這個推導有兩個用處，

1. 知道使用Selu的前提假設，是有假設的，視頻里面demo，在不滿足假設的情況下，Selu沒效果的

假設就是輸入和參數的初始化必須要滿足前面的分布假設

這里參數的初始化可以用lecun_normal，雖然參數后面會不斷調整，但初始化還是很關鍵

2. 可以看出SELU讓輸出的分布滿足mean=0， variance=1，這就可以達到BathNormalization的效果

可以看到作者的比較，SELU NN比用BatchNorm的效果要好，loss更低，而且也更平滑

因為BatchNorm，每次是用batch的mean和var，所以用局部代表全局，會有波動，因為每個batch可能有較大的差異

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 QT學習之QImage::scaled Scala中 => Unit 與 () =>Unit的區別 Linear Regression Qt 自適應圖片之scaled()函數詳解指數分布Exponential Distribution 理解滑動平均(exponential moving average) 理解滑動平均(exponential moving average) 指數族分布(Exponential Families of Distributions) [MCSM]Exponential family: 指數分布族 Linear Regression總結