目錄
本人博客: https://xiaoxiablogs.top
sigmoid
\[f(z)=\frac1{1+e^{-z}} \]
其圖像如下:
特點
- 能夠將輸入的連續實值變換為0到1之間的輸出
缺點
- 在深度神經網絡中梯度反向傳播是容易造成梯度爆炸和梯度消失
sigmoid導數
\[f'(z) = \frac{e^{-z}}{(1+e^{-z})^2} = \frac1{1+e^{-z}} - \frac1{(1+e^{-z})^2} \]
其導數圖像如下:
tanh
\[tanh(x) = \frac{e^x-e^{-x}}{e^x+e^{-x}} \]
其圖像如下:
特點
解決了sigmoid函數不是zero-centered的問題, 但是梯度消失依舊存在
導數
\[tanh'(x)=1-tanh(x)^2 = 1 - (\frac{e^x-e^{-x}}{e^x+e^{-x}})^2 \]
導數圖像
Relu
\[Relu(x)=max(0, x) \]
函數圖像
導數
\[Relu'(x) = \begin{cases} 0& x\leq 0\\ 1& x> 0 \end{cases} \]
優點
- 解決了梯度消失問題
- 計算速度非常快
- 收斂速度遠快於sigmoid和tanh
缺點
- 輸出的不是zero-centered
- 有些神經元可能永遠不會被激活(Dead ReLU)
- 不好的參數初始化
- 學習率過高, 導致網絡不幸進入這種情況
Leaky Relu(PRelu)
\[f(x) = max(\alpha x, x) \]
函數圖像\(\alpha=0.1\)
導數
\[f'(x) = \begin{cases} \alpha& x\leq0\\ 1& x> 0 \end{cases} \]
圖像
特點
- 具有ReLU的所有優點
- 不會有Dead ReLU問題
ELU
\[f(x)= \begin{cases} x& x>0\\ \alpha(e^x-1)& x\leq0 \end{cases} \]
函數圖像\(\alpha=1\)
導數
\[f'(x)= \begin{cases} 1&x>0\\ f(x)+\alpha = \alpha e^x& x\leq0 \end{cases} \]
圖像\(\alpha=1\)
特點
- 類似於Leaky ReLU
- 計算量稍大
- 不會有Dead ReLU問題
- 均值接近於0
SELU
\[selu(x) =\lambda \begin{cases} x& x>0\\ \alpha e^x-\alpha& x\leq0 \end{cases}\\ 其中\lambda=1.0507009873554804934193349852946\\ \alpha=1.6732632423543772848170429916717 \]
函數圖像
導數
\[selu'(x)=\lambda \begin{cases} 1& x>0\\ \alpha e^x \end{cases} \]
圖像:
特點
- 在ELU的基礎上求解了最佳的\(\alpha\) , 並且擴大了\(\lambda\)倍,
- SELU擁有ELU所有的優點
- 不存在死區
SoftMax
\[f(x_i)=\frac{e^{x_i}}{\sum_{j=1}^ne^{x_j}} \]
簡單地說, 就是當前元素的值就等與e的當前元素次方在所有元素的e的次方和的比例
導數
\[當交叉熵作為損失函數時, LOSS=-\sum_it_ilny_i, 其中, t_i表示真實值 \\當預測第i個時, 可以認為t_i=1, 那么LOSS=-\sum lny_i\\因為softmax的和為1, 那么\frac{e^{x^i}}{\sum_{j=1}^ne^{x_{j}}},對Loss求導后為-(1-\frac{\sum^n_{i\neq j}e^{x_i}}{\sum^n_je^{x_j}})=y_i-1 \]
也就是說, 只要求出\(j_i\), 那么減一就是梯度.
特點
-
Softmax會將整個超空間按照分類個數進行划分
-
Softmax會比其他的激活函數更適合多分類問題最后的激活