徑向基函數（RBF）神經網絡

之前看了流行學習的時候，感覺它很神奇，可以將一個4096維的人臉圖像降到3維。然后又看到了可以用徑向基網絡來將這3維的圖像重構到4096維。看到效果的時候，我和小伙伴們都驚呆了（呵呵，原諒我的孤陋寡聞）。見下圖，第1和3行是原圖像，維度是64x64=4096維，第2和第4行是將4096維的原圖像用流行學習算法降到3維后，再用RBF網絡重構回來的圖像（代碼是參考一篇論文寫的）。雖然在重構領域，這效果不一定是好的，但對於無知的我，其中的奧妙勾引了我，使我忍不住又去瞻仰了一番。

在說徑向基網絡之前，先聊下徑向基函數（Radical Basis Function，RBF）。徑向基函數（Radical Basis Function，RBF）方法是Powell在1985年提出的。所謂徑向基函數，其實就是某種沿徑向對稱的標量函數。通常定義為空間中任一點x到某一中心c之間歐氏距離的單調函數，可記作k(||x-c||)，其作用往往是局部的，即當x遠離c時函數取值很小。例如高斯徑向基函數：

當年徑向基函數的誕生主要是為了解決多變量插值的問題。可以看下面的圖。具體的話是先在每個樣本上面放一個基函數，圖中每個藍色的點是一個樣本，然后中間那個圖中綠色虛線對應的，就表示的是每個訓練樣本對應一個高斯函數（高斯函數中心就是樣本點）。然后假設真實的擬合這些訓練數據的曲線是藍色的那根（最右邊的圖），如果我們有一個新的數據x1，我們想知道它對應的f(x1)是多少，也就是a點的縱坐標是多少。那么由圖可以看到，a點的縱坐標等於b點的縱坐標加上c點的縱坐標。而b的縱坐標是第一個樣本點的高斯函數的值乘以一個大點權值得到的，c的縱坐標是第二個樣本點的高斯函數的值乘以另一個小點的權值得到。而其他樣本點的權值全是0，因為我們要插值的點x1在第一和第二個樣本點之間，遠離其他的樣本點，那么插值影響最大的就是離得近的點，離的遠的就沒什么貢獻了。所以x1點的函數值由附近的b和c兩個點就可以確定了。拓展到任意的新的x，這些紅色的高斯函數乘以一個權值后再在對應的x地方加起來，就可以完美的擬合真實的函數曲線了。

到了1988年， Moody和 Darken提出了一種神經網絡結構，即RBF神經網絡，屬於前向神經網絡類型，它能夠以任意精度逼近任意連續函數，特別適合於解決分類問題。

RBF網絡的結構與多層前向網絡類似，它是一種三層前向網絡。輸入層由信號源結點組成；第二層為隱含層，隱單元數視所描述問題的需要而定，隱單元的變換函數是RBF徑向基函數，它是對中心點徑向對稱且衰減的非負非線性函數；第三層為輸出層，它對輸入模式的作用作出響應。從輸人空間到隱含層空間的變換是非線性的，而從隱含層空間到輸出層空間變換是線性的。

RBF網絡的基本思想是：用RBF作為隱單元的“基”構成隱含層空間，這樣就可將輸入矢量直接（即不需要通過權連接）映射到隱空間。根據Cover定理，低維空間不可分的數據到了高維空間會更有可能變得可分。換句話來說，RBF網絡的隱層的功能就是將低維空間的輸入通過非線性函數映射到一個高維空間。然后再在這個高維空間進行曲線的擬合。它等價於在一個隱含的高維空間尋找一個能最佳擬合訓練數據的表面。這點與普通的多層感知機MLP是不同的。

當RBF的中心點確定以后，這種映射關系也就確定了。而隱含層空間到輸出空間的映射是線性的，即網絡的輸出是隱單元輸出的線性加權和，此處的權即為網絡可調參數。由此可見，從總體上看，網絡由輸人到輸出的映射是非線性的，而網絡輸出對可調參數而言卻又是線性的。這樣網絡的權就可由線性方程組直接解出，從而大大加快學習速度並避免局部極小問題。

從另一個方面也可以這樣理解，多層感知器（包括BP神經網絡）的隱節點基函數采用線性函數，激活函數則采用Sigmoid函數或硬極限函數。而RBF網絡的隱節點的基函數采用距離函數（如歐氏距離），並使用徑向基函數（如Gaussian函數）作為激活函數。徑向基函數關於n維空間的一個中心點具有徑向對稱性，而且神經元的輸入離該中心點越遠，神經元的激活程度就越低。隱節點的這一特性常被稱為“局部特性”。

RBF的設計主要包括兩個方面，一個是結構設計，也就是說隱藏層含有幾個節點合適。另一個就是參數設計，也就是對網絡各參數進行求解。由上面的輸入到輸出的網絡映射函數公式可以看到，網絡的參數主要包括三種：徑向基函數的中心、方差和隱含層到輸出層的權值。到目前為止，出現了很多求解這三種參數的方法，主要可以分為以下兩大類：

通過非監督方法得到徑向基函數的中心和方差，通過監督方法（最小均方誤差）得到隱含層到輸出層的權值。具體如下：

（1）在訓練樣本集中隨機選擇h個樣本作為h個徑向基函數的中心。更好的方法是通過聚類，例如K-means聚類得到h個聚類中心，將這些聚類中心當成徑向基函數的h個中心。

（2）RBF神經網絡的基函數為高斯函數時，方差可由下式求解：

式中c_max 為所選取中心之間的最大距離，h是隱層節點的個數。擴展常數這么計算是為了避免徑向基函數太尖或太平。

（3）隱含層至輸出層之間神經元的連接權值可以用最小均方誤差LMS直接計算得到，計算公式如下：（計算偽逆）（d是我們期待的輸出值）

采用監督學習算法對網絡所有的參數（徑向基函數的中心、方差和隱含層到輸出層的權值）進行訓練。主要是對代價函數（均方誤差）進行梯度下降，然后修正每個參數。具體如下：

（1）隨機初始化徑向基函數的中心、方差和隱含層到輸出層的權值。當然了，也可以選用方法一中的（1）來初始化徑向基函數的中心。

（2）通過梯度下降來對網絡中的三種參數都進行監督訓練優化。代價函數是網絡輸出和期望輸出的均方誤差：

然后每次迭代，在誤差梯度的負方向已一定的學習率調整參數。

第一種方法在zhangchaoyang的博客上面有C++的實現，只是上面針對的是標量的數據（輸入和輸出都是一維的）。而在Matlab中也提供了第一種方法的改進版（呵呵，個人覺得，大家可以在Matlab中運行open newrb查看下源代碼）。

Matlab提供的一個函數是newrb()。它有個技能就是可以自動增加網絡的隱層神經元數目直到均方差滿足我們要求的精度或者神經元數數目達到最大（也就是我們提供的樣本數目，當神經元數目和我們的樣本數目一致時，rbf網絡此時的均方誤差為0）為止。它使用方法也能簡單：

直接把訓練樣本給它就可以得到一個rbf網絡了。然后我們把輸入給它就可以得到網絡的輸出了。

第二種方法在zhangchaoyang的博客上面也有C++的實現，只是上面針對的還是標量的數據（輸入和輸出都是一維的）。但我是做圖像的，網絡需要接受高維的輸入，而且在Matlab中，向量的運算要比for訓練的運算要快很多。所以我就自己寫了個可以接受向量輸入和向量輸出的通過BP算法監督訓練的版本。BP算法可以參考這里：BackpropagationAlgorithm ，主要是計算每層每個節點的殘差就可以了。另外，我的代碼是可以通過梯度檢查的，但在某些訓練集上面，代價函數值卻會隨着迭代次數上升，這就很奇怪了，然后降低了學習率還是一樣。但在某些簡單點的訓練集上面還是可以工作的，雖然訓練誤差也挺大的（沒有完全擬合訓練樣本）。所以大家如果發現代碼里面有錯誤的部分，還望大家告知下。

首先，我測試了一維的輸入，需要擬合的函數很簡單，就是y=2x。

可以看到，Matlab的是完美擬合啊。我的那個還是均方誤差還是挺大的。

然后，我測試了高維的輸入，訓練樣本是通過Matlab的rand(5, 10)來得到的，它生成的是5行10列[0 1]之間的隨機數。也就是說我們的樣本是10個，每個樣本的維度是5維。我們測試的也是很簡單的函數y=2x。結果如下：

關於這個結果，我也不說什么了。期待大家發現代碼里面錯誤的地方，然后告知下，非常感謝。

RBF神經網絡與BP神經網絡的比較

RBF神經網絡與BP神經網絡都是非線性多層前向網絡，它們都是通用逼近器。對於任一個BP神經網絡，總存在一個RBF神經網絡可以代替它，反之亦然。但是這兩個網絡也存在着很多不同點，這里從網絡結構、訓練算法、網絡資源的利用及逼近性能等方面對RBF神經網絡和BP神經網絡進行比較研究。

（1）從網絡結構上看。 BP神經網絡實行權連接，而RBF神經網絡輸入層到隱層單元之間為直接連接，隱層到輸出層實行權連接。BP神經網絡隱層單元的轉移函數一般選擇非線性函數（如反正切函數），RBF神經網絡隱層單元的轉移函數是關於中心對稱的RBF（如高斯函數）。BP神經網絡是三層或三層以上的靜態前饋神經網絡，其隱層和隱層節點數不容易確定，沒有普遍適用的規律可循，一旦網絡的結構確定下來，在訓練階段網絡結構將不再變化；RBF神經網絡是三層靜態前饋神經網絡，隱層單元數也就是網絡的結構可以根據研究的具體問題，在訓練階段自適應地調整，這樣網絡的適用性就更好了。

（2）從訓練算法上看。 BP神經網絡需要確定的參數是連接權值和閾值，主要的訓練算法為BP算法和改進的BP算法。但BP算法存在許多不足之處，主要表現為易限於局部極小值，學習過程收斂速度慢，隱層和隱層節點數難以確定；更為重要的是，一個新的BP神經網絡能否經過訓練達到收斂還與訓練樣本的容量、選擇的算法及事先確定的網絡結構（輸入節點、隱層節點、輸出節點及輸出節點的傳遞函數）、期望誤差和訓練步數有很大的關系。RBF神經網絡的訓練算法在前面已做了論述，目前，很多RBF神經網絡的訓練算法支持在線和離線訓練，可以動態確定網絡結構和隱層單元的數據中心和擴展常數，學習速度快，比BP算法表現出更好的性能。

（3）從網絡資源的利用上看。 RBF神經網絡原理、結構和學習算法的特殊性決定了其隱層單元的分配可以根據訓練樣本的容量、類別和分布來決定。如采用最近鄰聚類方式訓練網絡，網絡隱層單元的分配就僅與訓練樣本的分布及隱層單元的寬度有關，與執行的任務無關。在隱層單元分配的基礎上，輸入與輸出之間的映射關系，通過調整隱層單元和輸出單元之間的權值來實現，這樣，不同的任務之間的影響就比較小，網絡的資源就可以得到充分的利用。這一點和BP神經網絡完全不同，BP神經網絡權值和閾值的確定由每個任務（輸出節點）均方差的總和直接決定，這樣，訓練的網絡只能是不同任務的折中，對於某個任務來說，就無法達到最佳的效果。而RBF神經網絡則可以使每個任務之間的影響降到較低的水平，從而每個任務都能達到較好的效果，這種並行的多任務系統會使RBF神經網絡的應用越來越廣泛。

總之，RBF神經網絡可以根據具體問題確定相應的網絡拓撲結構，具有自學習、自組織、自適應功能，它對非線性連續函數具有一致逼近性，學習速度快，可以進行大范圍的數據融合，可以並行高速地處理數據。RBF神經網絡的優良特性使得其顯示出比BP神經網絡更強的生命力，正在越來越多的領域內替代BP神經網絡。目前，RBF神經網絡已經成功地用於非線性函數逼近、時間序列分析、數據分類、模式識別、信息處理、圖像處理、系統建模、控制和故障診斷等。

rbf原理

所謂徑向基函數 (Radial Basis Function 簡稱 RBF), 就是某種沿徑向對稱的標量函數。
通常定義為空間中任一點x到某一中心xc之間歐氏距離的單調函數 , 可記作 k(||x-xc||),
其作用往往是局部的 , 即當x遠離xc時函數取值很小。最常用的徑向基函數是高斯核函數 ,
形式為 k(||x-xc||)=exp{- ||x-xc||^2/(2*σ)^2) } 其中xc為核函數中心,σ為函數的寬度參數 ,
控制了函數的徑向作用范圍。在RBF網絡中,這兩個參數往往是可調的。

可以從兩個方面理解 RBF 網絡的作用 :
(1)把網絡看成對未知函數f(x)的逼近器。
   一般任何函數都可表示成一組基函數的加權和 ,這相當於用隱層單元的輸出函數構成一組基函數來逼近f(x)
(2)在RBF網絡中以輸入層到隱層的基函數輸出是一種非線性映射，而輸出則是線性的。
   這樣,RBF網絡可以看成是首先將原始的非線性可分的特征空間變換到另一空間（通常是高維空間）,
   通過合理選擇這一變換使在新空間中原問題線性可分,然后用一個線性單元元來解決問題。
在典型的RBE網絡中有三組可調參數：隱層基函數中心、方差,以及輸出單元的權值。

這些參數的選擇有三種常見的方法：
(1)根據經驗選擇函數中心。
   比如只要訓練樣本的分布能代表所給問題 ,可根據經驗選定均勻分布的M個中心,
   其間距為d，可選取高斯核函數的方為σ=d/sqrt(2*M)。
(2)用聚類方法選擇基函數。
    可以各聚類中心作為核函數中心,而以各類樣本的方差的某一函數作為各個基函數的寬度參數。
   用(1)或(2)的方法選定了隱層基函旗的參數后,因輸出單元是線性單元,它的權值可以簡單地用最小二乘法
   直接計算出來。
(3)將三組可調參數都通過訓練樣本用誤差糾正算法求得。
   做法與BP方法類似,分別計算誤差e(k)對各組參數的偏導數，然后用迭代求取參數。
   研究表明,用於模式識別問題的RBF網絡在一定意義上等價於首先用非參數方法估計出概率密度，
   必然后用它進行分類
http://www.2nsoft.cn/bbs/read.php?tid=741&fpage=2

RBF神經網絡