本文首先盤點了傳統的激活函數以及注意力機制,然后解讀了一種“注意力機制下的新型激活函數”,也就是自適應參數化修正線性單元(Adaptively Parametric Rectifier Linear Unit,APReLU)。
1. 激活函數
激活函數是現代人工神經網絡的核心組成部分,其用處是進行人工神經網絡的非線性化。我們首先介紹幾種最為常見的激活函數,即Sigmoid激活函數、Tanh激活函數和ReLU激活函數,分別如下圖所示。
Sigmoid激活函數和Tanh激活函數的梯度取值范圍分別是(0,1)和(-1,1)。當層數較多時,人工神經網絡可能會遭遇梯度消失的問題。ReLU激活函數的梯度要么是零,要么是一,能夠很好地避免梯度消失和梯度爆炸的問題,因此在近年來得到了廣泛的應用。
然而,ReLU激活函數依然存在一點缺陷。如果在人工神經網絡訓練的時候,遇到了特征全部小於零的情況,那么ReLU激活函數的輸出就全部為零。這個時候就訓練失敗了。為了避免這種情況,有學者就提出了leaky ReLU激活函數,不將小於零的特征置為零,而是將小於零的特征乘以一個很小的系數,例如0.1和0.01。
在leaky ReLU中,這個系數的取值是人工設置的。但是人工設置的系數未必是最佳的,因此何愷明等人提出了Parametric ReLU激活函數(參數化ReLU激活函數,PReLU激活函數),將這個系數設置為一個可以訓練得到的參數,在人工神經網絡的訓練過程中和其他參數一起采用梯度下降法進行訓練。然而,PReLU激活函數有一個特點:一旦訓練過程完成,則PReLU激活函數中的這個系數就變成了固定的值。換言之,對於所有的測試樣本,PReLU激活函數中這個系數的取值是相同的。
到這里我們就大概介紹了幾種常用的激活函數。這些激活函數有什么問題呢?我們可以思考一下,如果一個人工神經網絡采用上述的某種激活函數,抑或是上述多種激活函數的組合,那么這個人工神經網絡在訓練完成之后,在被應用於測試樣本時,對全部測試樣本所采用的非線性變換是相同的。也就是說,所有的測試樣本,都會經歷相同的非線性變換。這其實是一種比較呆板的方式。
如下圖所示,我們如果以左邊的散點圖表示原始特征空間,以右邊的散點圖表示人工神經網絡所學習得到的高層特征空間,以散點圖中的小圓點和小方塊代表兩種不同類別的樣本,以F、G和H表示非線性函數。那么這些樣本是通過相同的非線性函數實現原始特征空間到高層特征空間的變換的。也就是說,圖片中的“=”意味着,對於這些樣本,它們所經歷的非線性變換是完全相同的。
那么,我們能不能根據每個樣本的特點,單獨為每個樣本設置激活函數的參數、使每個樣本經歷不同的非線性變換呢?本文后續所要介紹的APReLU激活函數,就做到了這一點。
2. 注意力機制
本文所要介紹的APReLU激活函數借鑒了經典的Squeeze-and-Excitation Network(SENet),而SENet是一種非常經典的、注意力機制下的深度學習方法。SENet的基本原理如下圖所示:
這里介紹一下SENet所蘊含的思想。對於許多樣本而言,其特征圖中的各個特征通道的重要程度很可能是不同的。例如,樣本A的特征通道1非常重要,特征通道2不重要;樣本B的特征通道1不重要,特征通道2很重要;那么在這個時候,對於樣本A,我們就應該把注意力集中在特征通道1(即賦予特征通道1更高的權重);反過來,對於樣本B,我們應該把注意力集中在特征通道2(即賦予特征通道2更高的權重)。
為了實現這個目的,SENet通過一個小型的全連接網絡,學習得到了一組權重系數,對原先特征圖的各個通道進行加權。通過這種方式,每個樣本(包括訓練樣本和測試樣本)都有着自己獨特的一組權重,用於自身各個特征通道的加權。這其實是一種注意力機制,即注意到重要的特征通道,進而賦予其較高的權重。
3. 自適應參數化修正線性單元(APReLU)激活函數
APReLU激活函數,在本質上,就是SENet和PReLU激活函數的集成。在SENet中,小型全連接網絡所學習得到的權重,是用於各個特征通道的加權。APReLU激活函數也通過一個小型的全連接網絡獲得了權重,進而將這組權重作為PReLU激活函數里的系數,即負數部分的權重。APReLU激活函數的基本原理如下圖所示。
我們可以看到,在APReLU激活函數中,其非線性變換的函數形式是和PReLU激活函數一模一樣的。唯一的差別在於,APReLU激活函數里對負數特征的權重系數,是通過一個小型全連接網絡學習得到的。當人工神經網絡采用APReLU激活函數時,每個樣本都可以有自己獨特的權重系數,即獨特的非線性變換(如下圖所示)。同時,APReLU激活函數的輸入特征圖和輸出特征圖有着相同的尺寸,這意味着APReLU可以被輕易地嵌入到現有的深度學習算法之中。
綜上所述,APReLU激活函數使每個樣本都可以有自己獨特的一組非線性變換,提供了一種更靈活的非線性變換方式,具有提高模式識別准確率的潛力。
參考文獻
Zhao M, Zhong S, Fu X, et al. Deep residual networks with adaptively parametric rectifier linear units for fault diagnosis[J]. IEEE Transactions on Industrial Electronics, 2020, DOI: 10.1109/TIE.2020.2972458.