本文內容來自名為convolutional networks for images, speech, and time-series的論文
作者:Yann LeCun, Yoshua Bengio
由於BP網絡在復雜、高維、非線性上強大的學習分類能力,被廣泛應用於圖像識別、語言識別等領域。在、在傳統有模式識別的模型中,通常是先用一個人工設計的特征提取器從輸入中提取相關的特征,消除掉不相關的特征,然后再把提取到的特征送給傳統的分類器。而現在我們可以用一個多層的全連接的網絡來代代替這兩者。具體做法是我們把原始的數據(不經過特征提取器處理)直接送給網絡,然后用BP算法把網絡的前幾層轉變為一個特征提取器,后面的幾層作為分類器(通過BP算法來調整參數)。
這樣存在着問題:1,當輸入數據過大時,權值過多,當訓練數據不足夠多時很容易出現過擬合的問題。2,過多的參數也同樣對硬件有太高的要求。3,have no built-in invariance with respect to translations or local distortions of the inputs. 4,全連接的網絡結構完全忽略了輸入數據的拓撲特性,結果,the input variables can be presented in any(fixed) order without affecting the outcome of the training.因為圖像有很強的空間2維結構、時間串列有強的1維特性。
在理論上講,一個有足夠大的全連接網絡可以學習到對於某些輸入變化部分的輸出不變性。但是樣 是有代價的:1,這樣產生的一個結果就是很多神經元有學習到相同的權值 2,需要大量的訓練數據 .
下面就是卷神經網絡的介紹。。略。
說重點:
1, 部分連接的這種想法最早可以追溯到60年代的感知器,與之同時出現的還有Hubel 與 Wiesel 在貓大腦發現的局部感受器。
2,來自Rumelhart、Hinton、and Williams 在1986年寫的文章里說到:in addition, elementary feature detectors that are useful on one part of the image are likely to be useful across the entire image.This knowledge can be applied by forcing a set of units, whose receptive fields are located at different place on the image, to have identical weight vector.
3, The convolution/subsampling combination, inspired by Hubel and Wiesel`s notion of ‘simple’and ‘complex’cell, was implemented in the Neocognitron model(神經感知機模型).
variable-size convolutional networks
對於以下部分,我也沒有完全明白.
對於變化的大小的卷積神經網絡怎么辦?意思就是當我們輸入的不是一個字,而是連續的一行怎么辦呢??
文中的做法,引用文中的一句話: a brute force sloution is to scan (or replicate) a recognizer at all possible location across the input.
有一句話我認為很重要: an output whose receptive field is centered on an elementary object will produce the class of the object,while an in_bettween output may be empty or contain garbage. The outputs can be interpreted as evidence for the categories of object centered at different positions oft the input field. A post-processor is therefore required to pull out consistent interpretations of the output.
應用:
