1 生物神經元網絡的基本原理
1.1 生物神經元
神經元即神經細胞是構成生物神經系統的結構和功能的最基本單元。它由細胞體、樹突和軸突組成。樹突是從細胞體向外延伸出的樹狀突起,其感受作用,接收來自其他神經元的傳遞信號。由細胞體審查處的一條最長的突起叫樹突,用來傳出細胞體產生的輸出電信號。
細胞體相當於一個初等處理器,它對來自其他神經元的神經信號進行總體求和,如果求和的結果足夠大,則產生一個神經輸出信號。
興奮過程
當膜電位比靜息電位高出約20mV時,該細胞被激活,其膜電位自發地急速升高,然后又急速下降,回到靜息時的值,這一過程成為細胞的興奮過程。興奮的結果就是產生一個幅值在100mV左右,寬度為1ms的電脈沖,這個脈沖又叫神經的動作電位。
不應期
當細胞體產生一個電脈沖后,即使受到很強的刺激,也不會立刻產生另一個動作電位,這段時間叫做絕對不應期。當絕對不應期過后,暫時性閾值升高,要激活這個細胞需要更強的刺激,這段時間成為相對不應期。絕對不應期和相對不應期合稱為不應期。
生物電信號通過突觸傳遞的過程
由於電脈沖的刺激,前突觸會釋放出一些神經遞質,這些神經遞質通過突觸間隙擴散到后突觸,並在突觸后膜與特殊的受體結合,改變了后膜的離子通透性,使膜電位發生變化,產生生理反應。
神經元的整合功能
一個神經元是把來自不同的樹突的興奮性和抑制性輸入信號累加求和進行整合。神經元的整合功能是一種時空整合。當神經元經時空整合產生的膜電位超過閾值時,神經元產生興奮性電脈沖,處於興奮狀態;否則無電脈沖產生,處於靜息狀態。
1.2 生物神經元網絡的結構
腦神經系統組織結構的基本特征
- 大量神經細胞同時工作;
- 分布處理;
- 多數神經細胞是以層次結構的形式組織起來的;
- 不用功能區的層次組織結構存在差別。
2 人工神經元網絡的基本原理
2.1 人工神經元
人工神經元相當於一個多輸入單輸出的非線性閾值器件。如果輸入信號的加權和超過閾值θ,則人工神經元被激活。閾值θ一般不是一個常數,它隨着神經元的興奮程度而變化。
激活函數
激活函數可歸納為三種形式:
- 閾值型:階躍響應函數,特性硬。
- S型:Sigmoid響應特性激活函數,輸出特性比較軟,輸出狀態的取值范圍為[0,1]或[-1,+1],硬度由λ調節。
- 線性型
人工神經元的特點
- 神經元是一對多輸入、單輸出元件。
- 它具有非線性的輸入、輸出特性。
- 它具有可塑性,其塑性變化的部分主要是權值的變化。
- 神經元的輸出響應是各個輸入值的綜合作用結果。
- 輸入分為興奮型(正值)和抑制型(負值)兩種。
2.2 人工神經元網絡模型
神經元網絡對信息處理的快速性和強有力的學習記憶功能是由其大規模的並行工作方式、非線性處理、網絡結構的可變性等固有結構特性決定的。
人工神經元通過一定的結構組織起來,就可以構成人工神經元網絡。根據拓撲結構的不同,人工神經元網絡可分為:
- 分層網絡
- 互相連接型網絡
分層網絡
所有神經元按功能分為輸入層、中間層(隱含層)和輸出層。中間層可以有多層,也可以沒有。
分層網絡又可以細分為:
- 簡單的前向網路。如BP網絡。
- 具有反饋的前向網絡:反饋的回路形成閉環,與生物神經元網絡結構相似。
- 層內有互相連接的前向網絡:層內單元互相連接,彼此牽制。
相互連接型網絡
網絡中任意兩個單元之間都是可以互相連接的。但是在相互連接網絡中,對於給定的輸入模式,網絡由某一初始狀態出發開始運行,在一段時間內網絡處於不斷更新輸出狀態的變化過程中,設計的好最終會產生某一穩定的輸出模式,設計得不好,也可能會進入周期性振盪或發散狀態。
神經元網絡的主要特點
- 並行處理的結構
- 可塑性的網絡連接
- 分布式的存貯記憶
- 全方位的互連
- 群體的集合運算
- 強大的非線性處理能力
前向網絡
激活值是標量,是輸入矢量和權矢量之積。前向網絡沒有反饋,可以連成多層網,前向網絡一般是有監督的學習,可以從誤差信號來修正權值,直到誤差小於允許范圍。
反饋網絡
反饋網絡實際上是將前饋網絡中輸出層神經元的輸出信號經延時后再送給輸入層神經元而成。
相互結合型網絡
各個神經元都可能相互雙向聯接,所有神經元既作為輸入,同時也用作輸出。這種網絡如果在某一時刻從外部加一個輸入信號,各個神經元一邊互相作用,一邊進行信息的處理,直到收斂於某個穩定值為止。
混合型網絡
前向網絡的同一層間各個神經元又有互連的結構。
2.3 神經元網絡的學習方式
學習方式有:
- 有監督
- 無監督
- 強化學習
2.4 神經元網絡的學習規則
神經元網絡最大的特點就是它有學習的能力。在學習的過程中,主要是網絡的連接權的值產生了相應的變化,學習到的內容也是記憶在連接權之中。
2.4.1 Hebb學習規則
學習信號r等於神經元的輸出。適合於前饋無監督學習。
2.4.2 Perceptron學習規則
有監督學習,學習信號是期望信號與神經元實際響應之差。這個規則僅能用於雙極二進制神經響應。在這一規則下,僅當實際輸出不正確的情況下才進行權調整,誤差是學習的必要條件。
2.4.3 Delta學習規則
僅對連續激活函數,並支隊有監督學習模型有效。
2.5 神經元網絡的處理信息的能力
- 分類
- 聯想
- 識別
- 歸納概括
2.6 神經元網絡的優點與缺點
神經網絡的主要優點是它們能夠處理復雜的非線性函數,並且能發現不同輸入間依賴關系。神經網絡也允許增量式訓練,並且通常不要求大量空間來存儲訓練模型,因為它們需要保存的僅僅是一組代表突觸權重的數字而已。同時,也沒有必要保留訓練后的原始數據,這意味着,可以將神經網絡用於不斷有訓練數據出現的應用之中。
神經網絡的主要缺點在於它是一種黑盒方法。在現實中,一個網絡也許會有數百個節點和上千個突觸,這使我們很難確知網絡如何得到最終的答案。可是無法確知推導的過程對於某些應用而言,也許是一個很大的障礙。
神經網絡的另一個缺點是,在訓練數據的比率及與問題相適應的網絡規模方面,沒有明確的規則可以遵循。最終的決定往往需要依據大量的試驗。選擇過高的訓練數據比率,有可能會導致網絡對噪音數據產生過度歸納(overgeneralize)現象,而選擇過低的訓練比率,則意味着除了我們給出的已知數據外,網絡有可能就不會再進一步學習了。
3 感知機模型網絡
3.1 感知機網絡結構
通常由:
- 感知層Sensory
- 連接層Association
- 反應層Response
A層至R層的連接權是通過學習來確定的,這些連接權在初始化時去[-1,+1]區間內的隨機值。
3.2 感知機學習過程
- 初始化,將A層至R層的連接權向量及輸出單元的閾值賦予[-1,+1]區間內的隨機值。
- 隨機選取一輸入模式加到網絡的輸入端。
- 計算網絡的實際輸出,使用雙擊階躍函數作為激活函數。
- 計算輸出層單元的希望輸入與實際輸出之間的誤差
- 修正A層各單元與輸出層R之間的連接權與閾值
- 返回第2步,直到m個輸入模式全部計算完
- 返回第2步,反復學習,直到誤差趨於零或小於預先給定的誤差限。
3.3 感知機網絡的局限性
不適用於非線性輸入模式的分類。如異或問題。
4 多層網絡的誤差逆傳播校正方法
4.1 誤差逆傳播校正方法
誤差逆傳播校正方法是利用實際輸出與期望輸出之差對網絡的各層連接權由后向前逐層進行校正的一種計算。BP網絡的學習規則是一種Delta學習規則,即利用誤差的負梯度來調整連接權,使其輸出誤差單調減少。
這里應注意,BP網絡的學習規則實現的是學習模式集合上平方和誤差E的梯度下降,而不是特定某個模式分量的絕對誤差的梯度下降。因此,在每次校正網偶,網絡輸出端的誤差對於某些神經元來說也有可能增加,但在進行多次反復計算后,其誤差還是應該變小的。
4.2 BP網絡的學習規則與計算方法
BP網絡的學習過程主要有四部分組成:
-
輸入模式順傳播(輸入模式由輸入層經中間層像輸出層傳播計算)
-
輸出誤差逆傳播(輸出的誤差由輸出層經中間層傳向輸入層)。
調整量與誤差成正比,與輸入值的大小成比例,與學習系數成正比。
-
循環記憶訓練(模式順傳播與誤差逆傳播的計算過程反復交替循環進行)
對於BP網絡輸入的每一組訓練模式,一般要經過數百次甚至上萬次的循環記憶訓練,才能是網絡記住這一模式。
-
學習結果判別(判定全局誤差是否趨向極小值)
每次循環記憶訓練結束后,都要進行學習結果的判別,主要檢查輸出誤差是否已經小於允許的程度。其收斂過程有兩個缺陷:- 收斂速度慢
- 存在“局部極小值”問題。適當改進BP網絡中間層的單元個數,或者給每個連接權加上一個很小的隨機數,都有可能使收斂過程避開局部極小點。能夠保證網絡收斂於全局最小值的有效辦法就是隨機學習算法。
4.3 BP網絡算法步驟


4.4 BP網絡隱含層結構
實例結果表明: 雙隱層網絡的兩個隱層節點數相近時, 網絡訓練效果最好。 由 Komogorov 定理, 對於任意連續函數, 可以由一個三層網絡來精確實現它, 其中網絡第一層有 m 個單元, 中間層有 2m+1單元;三層有 n 個單元. 此定理保證三層網絡可以精確地實現任意連續函數,且提到了隱含層節點數目,故而單隱含層 BP網可以解決大部分問題。 實際上,隱含層單元數,主要取決於問題復雜程度而非樣本數,只是復雜的問題都需要大量的樣本。
另外,通過實驗發現規律:當隱含層節點數取輸入層節點數和輸出層節點數之間的值時,尤其當靠近輸入節點數時,網絡收斂速度較快. 隱層節點數太少時,學習過程不收斂;但隱含層節點數太多時,網絡映射能力增強,局部最小點越少,越容易收斂到全局最小點,卻致使學習時間長,且網絡容易訓練過渡,此時導致網絡不僅記住了學習樣本一般特征而且記住了個別特征(如隨機噪聲)導致網絡容錯性降低。
在實際工程應用中,上述經驗公式也僅僅作為參考,具體在設計網絡結構時,還需要進行試湊,結合經驗公式以縮短BP網絡結構的研制周期。當隱含層數難以確定時,可以先選較多的隱含層單元數,待學習完成后,再逐步減少一些隱含層單元,使網絡更精簡。