1985年,Powell提出了多變量插值的徑向基函數(RBF)方法。1988年Moody和Darken提出了一種神經網絡結構,即RBF神經網絡,屬於前向神經網絡類型,它能夠以任意精度逼近任意連續函數,特別適合於解決分類問題。
RBF網絡的結構與多層前向網絡類似,它是一種三層前向網絡。輸入層由信號源結點組成,第二層為隱含層,隱單元數視所描述問題的需要而定,隱單元的變換函數是RBF,它是對中心點徑向對稱且衰減的非負非線性函數,第三層為輸出層,它對輸入模式的作用作出相應。從輸入空間到隱含層空間的變換是非線性的,而從隱含層空間到輸出層空間變換是線性的。
RBF網絡的基本思想是:用RBF作為隱單元的“基”構成隱含層空間,這樣就可以將輸入矢量直接映射到隱空間,而不需要通過權連接。當RBF的中心點確定以后,這種映射關系也就確定了。而隱含層空間到輸出空間的映射是線性的,即網絡的輸出是隱單元輸出的線性加權和,此處的權即為網絡可調參數。從總體上看,網絡由輸入到輸出的映射是非線性的,而網絡輸出對可調參數而言卻又是線性的。這樣,網絡由輸入到輸出的映射是非線性的,而網絡輸出對可調參數而言卻又是線性的。這樣網絡的權就可由線性方程組直接解出,從而大大加快學習速度並避免局部極小問題。
RBF神經網絡模型
徑向基神經網絡的激活函數采用徑向基函數,通常定義為空間任一點到某一中心之間歐氏距離的單調函數。徑向基神經網絡的激活函數是以輸入向量和權值向量之間的距離\(\Vert dist \Vert\) 為自變量的。徑向神經網絡的激活函數一般表達式為 $$R(\Vert dist \Vert) = e^{-\Vert dist \Vert^2}$$
隨着權值和輸入向量之間距離的減少,網絡輸出是遞增的,當輸入向量和權值向量一致時,神經元輸出1。b為閾值,用於調整神經元的靈敏度。利用徑向基神經元和線性神經元可以建立廣義回歸神經網絡,該種神經網絡適用於函數逼近方面的應用;徑向基神經元和競爭神經元可以組件概率神經網絡,此種神經網絡適用於解決分類問題。輸出層和隱含層所完成的任務是不同的,因而它們的學習策略也不相同。輸出層是對線性權進行調整,采用的是線性優化策略,因而學習速度較快。而隱函數是對激活函數(格林函數或高斯函數,一般為高斯函數)的參數進行調整,采用的是非線性優化策略,因而學習速度較慢。
盡管RBF網絡的輸出是隱單元輸出的線性加權和,學習速度加快,但並不等於徑向基神經網絡就可以取代其他前饋網絡。這是因為徑向神經網絡很可能需要比BP網絡多得多的隱含層神經元來完成工作。
RBF網絡學習算法
RBF神經網絡學習算法需要求解的參數有3個:基函數的中心、方差以及隱含層到輸出層的權值。根據徑向基函數中心選取方法的不同,RBF網絡有多種學習方法。下面介紹自組織選取中心的RBF神經網絡學習法。此方法由兩個階段組成:
- 自組織學習階段,此階段為無監督學習過程,求解隱含層基函數的中心與方差;
- 監督學習階段,此階段求解隱含層到輸出層之間的權值。
徑向基神經網絡中常用的徑向基函數是高斯函數,因此徑向基神經網絡的激活函數可表示為:$$R(x_p-c_i) = exp(-\frac{1}{2\sigma^2}\Vert x_p - c_i \Vert^2)$$
由此可得,徑向基神經網絡的結構可得到網絡的輸出為:$$y_j = \sum^h_{i=1}w_{ij}exp(-\frac{1}{2\sigma^2}\Vert x_p - c_i \Vert^2)\ j = 1,2,\cdots, n$$
其中\(x_p\) 為第p個輸入樣本。h為隱含層的結點數。
如果d是樣本的期望輸出值,那么基函數的方差可表示為:$$\sigma = \frac{1}{P}\sum^m_j\Vert d_j - y_jc_i \Vert^2$$
基於K-均值聚類方法求取基函數中心c
- 網絡初始化 隨機選取h個訓練樣本作為聚類中心\(c_i\)
- 將輸入的訓練樣本集合按最近鄰規則分組,按照\(x_p\) 與中心為 \(c_i\) 之間的歐式距離將\(x_p\) 分配到輸入樣本的各個聚類集合 \(\vartheta_p\) 之中。
- 重新調整聚類中心 計算各個聚類集合 \(\vartheta_p\) 中訓練樣本的平均值,即新的聚類中心 \(c_i\), 如果新的聚類中心不再發生變化,所得到的 \(c_i\) 就是RBF神經網絡最終的基函數中心,否則返回2進行下一輪求解
求解方差\(\sigma_i\)
該RBF神經網絡的基函數為高斯函數,因此方差 \(\sigma_i\) 可由下式求解得出:$$\sigma_i = \frac{c_{max}}{\sqrt{2h}} \ \ \ i=1,2,\cdots,h$$
其中 \(c_{max}\) 是所選取中心之間的最大距離
計算隱含層和輸出層之間的權值
用最小二乘法直接計算得到: $$w = exp(\frac{h}{c^2_{max}} \Vert x_p - c_i \Vert^2) \ \ \ \ \ p = 1,2,\cdots,P;i=1,2,\cdots, h$$