RBF神經網絡


1.RBF徑向基函數

本質上和RBF核函數的SVM很相似,使用徑向基函數對數據重新構建,利用 Φ(||X- Xp||)來代替原始的數據向量表示,一共有P個中心,所以獲得的新數據有P個維度,此時再對數據進行分類。輸出等於W Φ(||X- Xp||),W為需要求解的權重。

 

數學上是可以對W求解求解的,但是Φ的選取有要求,同時還不包含正則,使求解的曲面可能有過擬合。

 

 帶正則的求解如上圖,第一項是均方誤差,第二項是對F求的微分算子,代表了對F的先驗知識。

這個方程的解也是可以得到的。

 

 

當G函數為多元高斯函數的時候

 

 

,整個式子就滿足了西瓜書上使用高斯徑向基的函數式,形式上一模一樣

   

 

西瓜書上對c求解是使用聚類或者隨機采樣的方式來獲取c,對於另外兩個參數W和偏擴展常數使用BP算法求取。

也可以可以用聚類的方式計算,然后找到兩種聚類中心的形式:

1.  d是數據中心間最大距離,M是數據個數,可以避免徑向基函數過於集中或者分散

 

2.  但是不知道第二個參數如何選取。

 

此時如果只有一層的話可以使用 的方式去求,因為Φ不是方陣。

 

 

 也有做法是可以對數據中三個變量都做成可訓練參數,求取梯度,求梯度和句子操作可見https://www.cnblogs.com/zhangchaoyang/articles/2591663.html。這里不具體描述。

 

 

 

以下為轉載內容

————————————————————————

1985年,Powell提出了多變量插值的徑向基函數(Radical Basis Function,RBF)方法。1988年,Moody和Darken提出了一種神經網絡結構,即RBF神經網絡,屬於前向神經網絡類型,它能夠以任意精度逼近任意連續函數,特別適合於解決分類問題。

RBF網絡的結構與多層前向網絡類似,它是一種三層前向網絡。輸入層由信號源節點組成;第二層為隱含層,隱單元數視所描述問題的需要而定,隱單元的變換函數RBF是對中心點徑向對稱且衰減的非負非線性函數;第三層為輸出層,它對輸入模式的作用做出響應。從輸入空間到隱含層空間的變換是非線性的,而從隱含層空間的輸出層空間變換是線性的。

RBF網絡的基本思想是:用RBF作為隱單元的“基”構成隱含層空間,這樣就可以將輸入向量直接映射到隱空間。當RBF的中心點確定以后,這種映射關系也就確定了。而隱含層空間到輸出空間的映射是線性的,即網絡的輸出是隱單元輸出的線性加權和。此處的權即為網絡可調參數。由此可見,從總體上看,網絡由輸入到輸出的映射是非線性的,而網絡的輸出對可調參數而言卻是線性的。這煙大哥網絡的權就可由線性方程直接解出,從而大大加快學習速度並避免局部極小問題。

一、RBF神經元模型

徑向基函數神經元的傳遞函數有各種各樣的形式,但常用的形式是高斯函數(radbas)。與前面介紹的神經元不同,神經元radbas的輸入為輸入向量p和權值向量ω之間的距離乘以閾值b。徑向基傳遞函數可以表示為如下形式:

二、RBF網絡模型

徑向基神經網絡的激活函數采用徑向基函數,通常定義為空間任一點到某一中心之間歐氏距離的單調函數。徑向基神經網絡的激活函數是以輸入向量和權值向量之間的距||dist||為自變量的。徑向神經網絡的激活函數一般表達式為

隨着權值和輸入向量之間距離的減少,網絡輸出是遞增的,當輸入向量和權值向量一致時,神經元輸出1。b為閾值,用於調整神經元的靈敏度。利用徑向基神經元和線性神經元可以建立廣義回歸神經網絡,該種神經網絡適用於函數逼近方面的應用;徑向基神經元和競爭神經元可以組件概率神經網絡,此種神經網絡適用於解決分類問題。輸出層和隱含層所完成的任務是不同的,因而它們的學習策略也不相同。輸出層是對線性權進行調整,采用的是線性優化策略,因而學習速度較快。而隱函數是對激活函數(格林函數或高斯函數,一般為高斯函數)的參數進行調整,采用的是非線性優化策略,因而學習速度較慢。

盡管RBF網絡的輸出是隱單元輸出的線性加權和,學習速度加快,但並不等於徑向基神經網絡就可以取代其他前饋網絡。這是因為徑向神經網絡很可能需要比BP網絡多得多的隱含層神經元來完成工作。

可以從兩方面理解徑向基網絡的工作原理:

1.從函數逼近的觀點看,若把網絡看成是對未知函數的逼近,則任何函數都可以表示成一組基函數的加權和。在徑向基網絡中,相當於選擇各隱層神經元的傳輸函數,使之構成一組基函數逼近未知函數。

2.從模式識別的觀點看,總可以將低維空間非線性可分的問題映射到高維空間,使其在高維空間線性可分。在徑向基網絡中,隱層的神經元數目一般比標准的BP網絡要多,構成高維的隱單元空間。在徑向基網絡中,隱層的神經元傳輸函數為非線性函數,從而完成從輸入空間到隱單元空間的非線性變換。只要隱層神經元的數目足夠多,就可以使輸入模式在隱層的高維輸出空間可分。在徑向基網絡中,輸出層為線性層,完成對隱層空間模式的線性分類,即提供從隱單元空間到輸出空間的一種線性變換。

三、RBF網絡學習算法

RBF神經網絡學習算法需要求解的參數有3個:基函數的中心、方差以及隱含層到輸出層的權值。根據徑向基函數中心選取方法的不同,RBF網絡有多種學習方法。下面介紹自組織選取中心的RBF神經網絡學習法。此方法由兩個階段組成:

自組織學習階段,此階段為無監督學習過程,求解隱含層基函數的中心與方差;

監督學習階段,此階段求解隱含層到輸出層之間的權值。

徑向基神經網絡中常用的徑向基函數是高斯函數,因此徑向基神經網絡的激活函數可表示為:

由此可得,徑向基神經網絡的結構可得到網絡的輸出為:

其中xp為第p個輸入樣本。h為隱含層的結點數。

如果d是樣本的期望輸出值,那么基函數的方差可表示為:

1.基於K-均值聚類方法求取基函數中心c

1)網絡初始化,隨機選取h個訓練樣本作為聚類中心ci

2)將輸入的訓練樣本集合按最近鄰規則分組,按照xp 與中心為 ci 之間的歐式距離將xp 分配到輸入樣本的各個聚類集合 ϑp 之中。

3)重新調整聚類中心 計算各個聚類集合 ϑp 中訓練樣本的平均值,即新的聚類中心 ci, 如果新的聚類中心不再發生變化,所得到的 ci 就是RBF神經網絡最終的基函數中心,否則返回2進行下一輪求解

2.求解方差σi

該RBF神經網絡的基函數為高斯函數,因此方差σi可由下式求解得出:

其中 cmax 是所選取中心之間的最大距離

3.計算隱含層和輸出層之間的權值

用最小二乘法直接計算得到:

四、RBF內插值

完全內插法要求插值函數經過每個樣本點,即

。樣本點總共有P個。RBF的方法是要選擇P個基函數,每個基函數對應一個訓練數據,各基函數形式為

,由於距離是徑向同性的,因此稱為徑向基函數。||X-Xp||表示差向量的模,或者叫2范數。

基於為徑向基函數的插值函數為:

輸入X是個m維的向量,樣本容量為P,P>m。可以看到輸入數據點Xp是徑向基函數φp的中心。

隱藏層的作用是把向量從低維m映射到高維P,低維線性不可分的情況到高維就線性可分了。

將插值條件代入:

寫成向量的形式為

,顯然Φ是個規模這P對稱矩陣,且與X的維度無關,當Φ可逆時,有

。對於一大類函數,當輸入的X各不相同時,Φ就是可逆的。下面的幾個函數就屬於這“一大類”函數:

1)Gauss(高斯)函數

2)Reflected Sigmoidal(反常S型)函數

3)Inverse multiquadrics(擬多二次)函數

σ稱為徑向基函數的擴展常數,它反應了函數圖像的寬度,σ越小,寬度越窄,函數越具有選擇性。

完全內插存在一些問題:

1)插值曲面必須經過所有樣本點,當樣本中包含噪聲時,神經網絡將擬合出一個錯誤的曲面,從而使泛化能力下降。

由於輸入樣本中包含噪聲,所以我們可以設計隱藏層大小為K,K<P,從樣本中選取K個(假設不包含噪聲)作為Φ函數的中心。

2)基函數個數等於訓練樣本數目,當訓練樣本數遠遠大於物理過程中固有的自由度時,問題就稱為超定的,插值矩陣求逆時可能導致不穩定。

擬合函數F的重建問題滿足以下3個條件時,稱問題為適定的:

1. 解的存在性

2. 解的唯一性

3. 解的連續性

不適定問題大量存在,為解決這個問題,就引入了正則化理論。

正則化理論

正則化的基本思想是通過加入一個含有解的先驗知識的約束來控制映射函數的光滑性,這樣相似的輸入就對應着相似的輸出。

尋找逼近函數F(x)通過最小化下面的目標函數來實現:

加式的第一項好理解,這是均方誤差,尋找最優的逼近函數,自然要使均方誤差最小。第二項是用來控制逼近函數光滑程度的,稱為正則化項,λ是正則化參數,D是一個線性微分算子,代表了對F(x)的先驗知識。曲率過大(光滑度過低)的F(x)通常具有較大的||DF||值,因此將受到較大的懲罰。

直接給出(1)式的解:

權向量

********************************(2)

G(X,Xp)稱為Green函數,G稱為Green矩陣。Green函數與算子D的形式有關,當D具有旋轉不變性和平移不變性時,

這類Green函數的一個重要例子是多元Gauss函數:

正則化RBF網絡

輸入樣本有P個時,隱藏層神經元數目為P,且第p個神經元采用的變換函數為G(X,Xp),它們相同的擴展常數σ。輸出層神經元直接把凈輸入作為輸出。輸入層到隱藏層的權值全設為1,隱藏層到輸出層的權值是需要訓練得到的:逐一輸入所有的樣本,計算隱藏層上所有的Green函數,根據(2)式計算權值。

五、廣義RBF網絡

Cover定理指出:將復雜的模式分類問題非線性地映射到高維空間將比投影到低維空間更可能線性可分。

廣義RBF網絡:從輸入層到隱藏層相當於是把低維空間的數據映射到高維空間,輸入層細胞個數為樣本的維度,所以隱藏層細胞個數一定要比輸入層細胞個數多。從隱藏層到輸出層是對高維空間的數據進行線性分類的過程,可以采用單層感知器常用的那些學習規則,參見神經網絡基礎和感知器。

注意廣義RBF網絡只要求隱藏層神經元個數大於輸入層神經元個數,並沒有要求等於輸入樣本個數,實際上它比樣本數目要少得多。因為在標准RBF網絡中,當樣本數目很大時,就需要很多基函數,權值矩陣就會很大,計算復雜且容易產生病態問題。另外廣RBF網與傳統RBF網相比,還有以下不同:

1. 徑向基函數的中心不再限制在輸入數據點上,而由訓練算法確定。

2. 各徑向基函數的擴展常數不再統一,而由訓練算法確定。

3. 輸出函數的線性變換中包含閾值參數,用於補償基函數在樣本集上的平均值與目標值之間的差別。

因此廣義RBF網絡的設計包括:

結構設計--隱藏層含有幾個節點合適

參數設計--各基函數的數據中心及擴展常數、輸出節點的權值。

下面給出計算數據中心的兩種方法:

1.數據中心從樣本中選取。樣本密集的地方多采集一些。各基函數采用統一的偏擴展常數:

dmax是所選數據中心之間的最大距離,M是數據中心的個數。擴展常數這么計算是為了避免徑向基函數太尖或太平。

2.自組織選擇法,比如對樣本進行聚類、梯度訓練法、資源分配網絡等。各聚類中心確定以后,根據各中心之間的距離確定對應徑向基函數的擴展常數。

λ是重疊系數。

接下來求權值W時就不能再用

了,因為對於廣義RBF網絡,其行數大於列數,此時可以求Φ偽逆。

數據中心的監督學習算法

最一般的情況,RBF函數中心、擴展常數、輸出權值都應該采用監督學習算法進行訓練,經歷一個誤差修正學習的過程,與BP網絡的學習原理一樣。同樣采用梯度下降法,定義目標函數為

ei為輸入第i個樣本時的誤差信號。

上式的輸出函數中忽略了閾值。

為使目標函數最小化,各參數的修正量應與其負梯度成正比,即

具體計算式為

上述目標函數是所有訓練樣本引起的誤差總和,導出的參數修正公式是一種批處理式調整,即所有樣本輸入一輪后調整一次。目標函數也可以為瞬時值形式,即當前輸入引起的誤差

此時參數的修正值為:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM