單層神經網絡、多層感知機、深度學習的總結


關於神經網絡的幾點思考:單層——多層——深度

 

神經網絡本質上是一個逼近器,一個重要的基本屬性就是通用逼近屬性。

通用逼近屬性:

1989年,George Cybenko發表文章“Approximation by Superpositions of a Sigmoidal Function”,文章證明在只有單個隱層的情況下,對於任何的連續的,非線性的sigmoidal函數,只要在隱藏層個數足夠多的情況下,就能夠很好的擬合任意的連續函數。

原文鏈接:http://www.dartmouth.edu/~gvc/Cybenko_MCSS.pdf

文章所闡述的通用逼近屬性(UniversalApproximation Properties)是神經網絡中非常重要的一個性質:一個單隱藏層的神經網絡,如果神經元個數足夠多,通過非線性的激活函數則可以擬合任意函數。這使得我們在思考神經網絡的問題的時候,不需要考慮函數是否能夠用神經網絡擬合,只需要考慮如何用神經網絡做到更好的擬合。

 

1991年Kurt Hornik提出:通用逼近屬性並不是激活函數的具體選擇,而是多層前饋結構本身,該結構使神經網絡具有通用逼近器的性質。

原文鏈接:http://www.sciencedirect.com/science/article/pii/0893608089900208

 

單層神經網絡的缺點:

1、我們的優化方法不一定能夠找到我們所希望的優化參數,也就找不到我們需要的擬合函數,雖然這個擬合的函數是存在的;

2、訓練結果好,但是泛化能力差,即很容易產生過擬合

 

深層神經網絡(多層感知機):

使用更深層的神經網絡,可以得到更好的表達效果,這可以直觀地理解為:在每一個網絡層中,函數特點被一步步的抽象出來;下一層網絡直接使用上一層抽象的特征進行進一步的線性組合。但是深層神經網絡的缺點在於:

1、在面對大數據時需要人為提取原始數據的特征作為輸入,這個尺度很難掌握,多層神經網絡會把蹲在屋頂的Kitty和騎在貓奴頭上的Kitty識別為不同的貓咪,又會把二哈和狼歸類為同一種動物。前者是對不相關變量過於敏感,后者則因無法提取有實際意義的特征。

2、想要更精確的近似復雜的函數,必須增加隱藏層的層數,這就產生了梯度擴散問題。

3、無法處理時間序列數據(比如音頻),因為多層神經網絡不含時間參數。

 

深度學習模型:

2006年,文章“Reducing the Dimensionality with Neural Networks”在Nature上發表,掀起了深度學習在學術界和工業界的研究熱潮。作者闡述了兩個重要觀點:一、多隱層的神經網絡可以學習到能刻畫數據本質屬性的特征,對數據可視化和分類等任務有很大幫助;二、可以借助於無監督的“逐層初始化”策略來有效克服深層神經網絡在訓練上存在的難度。不斷發展。

對於更為復雜的問題,多層神經網絡是解決不了這些問題的,而深度模型是如何解決以上的缺陷的呢?

1、深度學習自動選擇原始數據的特征,如卷積神經網絡模型等,能有效提取特征值。

2、深度網絡的學習算法不同於深層神經網絡:一是改變網絡的組織結構,比如用卷積神經網絡代替全連接(full connectivity)網絡,訓練算法仍依據Backpropagatinggradients的基本原理。另一種則是徹底改變訓練算法,比如Hessian-freeoptimization,recursive least-squares(RLS)算法等。

3、使用帶反饋和時間參數的RNN網絡處理時間序列數據。

參考:

1、http://deeplearning.cs.cmu.edu/pdfs/Cybenko.pdf

2、知乎https://www.zhihu.com/question/26017374

3、 CSDNhttp://blog.csdn.net/zpcxh95/article/details/69952020?winzoom=1#21-通用逼近性質理論universal-approximation-propertiestheorem神經網絡可以逼近任意函數


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM