Relu優點:
1、可以使網絡訓練更快。
相比於sigmoid、tanh,導數更加好求,反向傳播就是不斷的更新參數的過程,因為其導數不復雜形式簡單。
2、增加網絡的非線性。
本身為非線性函數,加入到神經網絡中可以是網格擬合非線性映射。
3、防止梯度消失。
當數值過大或者過小,sigmoid,tanh的導數接近於0,relu為非飽和激活函數不存在這種現象。
4、使網格具有稀疏性。
由於小於0部分為0,大於0部分才有值,所以可以減少過擬合。
softmax作用:
將神經網絡的輸出變為概率分布。
1、數據之和為1.
2、負數變為正數。
cross entropy
衡量兩個概率分布的距離。
1、值越小,距離越近。
2、值越大,距離越遠。
AlexNet優點:
(1)成功使用relu作為cnn的激活函數,並驗證其效果在較深的網絡超過sigmoid,成功解決了sigmoid在網絡較深時的梯度彌散問題。
(2)訓練時使用Dropout隨機忽略一部分神經元,以避免模型過擬合。dropout雖有單獨的論文論述。但是AlexNet將其實用化。通過實踐證實了它的效果。在AlexNet中主要是最后幾個全連接層使用了Dropout。
(3)在cnn中使用重疊的最大池化,此前cnn中普遍使用平均池化。AlexNet全部使用最大池化。避免平均池化的模糊化效果。並且讓步長比池化核的尺寸小。這樣池化的輸出之間會有重疊和覆蓋。提升了特征的豐富性。
(4)提出了LRN層,對局部神經元的活動創建競爭機制,使得其中相應比較大的值變得相對更大。並抑制其他反饋較小的神經元,增強模型的泛化能力。
(5)使用CUDA加深深度卷積網絡的訓練,利用GPU強大的並行計算能力。處理神經網絡訓練時大量的矩陣運算。AlexNet使用了兩塊GTX 580 GPU進行訓練。同時AlexNet的設計讓Gpu之間的通信只在網絡的某些層進行,控制了通信的性能損耗。
(6)數據增強。隨機地從256*256的原始圖像中截取224*224大小的區域(以及水平旋轉的鏡像)對圖像的RGB數據進行PCA處理,並對主成分做一個標准差為0,1高斯擾動,增加 一些噪聲。