1. 摘要
ReLU 相比 Tanh 能產生相同或者更好的性能,而且能產生真零的稀疏表示,非常適合自然就稀疏的數據。
采用 ReLU 后,在大量的有標簽數據下,有沒有無監督預訓練模型取得的最好效果是一樣的,這可以被看做是訓練深層有監督網絡的一個新的里程碑。
2. 背景
2.1. 神經元科學的觀察
對腦能量消耗的研究表明,神經元以稀疏和分布的方式編碼信息,同時活躍的神經元的百分比估計在 1% 到 4% 之間。這是信息表示豐富度和潛在能量消耗的一種平衡。但是,如果沒有額外的正則化,比如 \(L_1\) 懲罰,普通的神經網絡是沒有這個特性的。
在生物神經元模型中,射頻和輸入電流的關系如上面左圖所示。而在深度學習領域,最常見的兩個激活函數 Sigmoid 和 Tanh 的圖像如上面右圖所示。
2.2. 稀疏的優勢
信息分離。密集表示的信息是高度糾纏的,任何輸入的變化都會導致表示向量大部分元素的改變。而如果一個表示對小的輸入變化是稀疏且魯棒的,那么非零特征就總會大致保持不變。
有效的大小可變表示。不同的輸入信息量可能不同,這就要求我們的表示也是大小可變的。而改變激活神經元的數量就可以讓模型控制表示的有效維度以及需要的精度。
線性可分。稀疏表示的信息一般是在高維空間,更加容易線性可分。
分布但稀疏。密集的分布式表示是最豐富的表示,比純局部要成倍地有效,而稀疏表示中非零特征的數量也可以保證其有效性。
但是,太過強調稀疏性也會減少模型的有效容量,降低性能。
3. 深度網絡
神經科學研究表明,大腦皮層的神經元很少達到它們的最大飽和區域,這表明激活函數可以用 ReLU 來近似表示。
給定一個輸入,只有一部分神經元被選擇,網絡的非線性也就來自於單個神經元的是否被激活。一旦確定了哪些神經元被選擇,輸出就是對輸入的一個線性函數。正因為此,梯度的反向傳播不會像 Sigmoid 或者 Tanh 那樣容易消失,而且也不涉及指數部分的計算,節省計算成本,還能得到稀疏解。每一次,被激活的神經元都是不確定的,這可以看作是很多個共享參數的線性模型的組合。
5. 實驗結果
可以看到,沒有預訓練時,采用 ReLU 作為激活函數取得了最好的結果。而增加了與訓練后,效果與之前相比也並沒有太大差異。
在稀疏性沒有達到 85% 之前,稀疏性都不會降低模型最終的表現,超過 85% 之后,稀疏性過大會降低模型的容量導致效果下降。
獲取更多精彩,請關注「seniusen」!