鄭重聲明:原文參見標題,如有侵權,請聯系作者,將會撤銷發布!
IEEE Transactions on Neural Networks and Learning Systems, no. 12 (2018): 6178-6190
Abstract
RL最近以擊敗歐洲圍棋冠軍等重大成就重新受到歡迎。在此,我們第一次表明,RL可以有效地用於訓練一個SNN,以在不使用外部分類器的情況下在自然圖像中執行目標識別。我們使用了前向卷積SNN和時間編碼方案,其中激活最強的神經元最先發放,而激活較弱的神經元隨后發放,或者根本不發放。在最高層,每個神經元都被分配到一個目標類別,並且假設刺激類別是第一個要發放的神經元類別。如果這一假設是正確的,神經元就會得到獎勵,即采用脈沖時序依賴可塑性(spike-timing-dependent plasticity, STDP),從而增強神經元的選擇性。另外,anti-STDP被應用,這鼓勵了神經元學習其他東西。正如在各種圖像數據集(Caltech、ETH-80和NORB)上所證明的那樣,這種獎勵調節STDP (reward-modulated STDP, R-STDP)方法提取了特別有區分度的視覺特征,而經典的無監督STDP提取了任何持續重復的特征。因此,R-STDP在這些數據集上的性能優於STDP。此外,R-STDP適合於在線學習,能夠適應標簽置換等劇烈變化。最后,值得一提的是,特征提取和分類都是用脈沖來完成的,每個神經元最多使用一個脈沖。因此,該網絡對硬件友好且節能。
Index Terms
基於首次脈沖的分類、RL、獎勵調節STDP (R-STDP)、SNN、時間編碼、視覺目標識別。
I. INTRODUCTION
大腦中的神經元通過突觸連接,隨着時間的推移,突觸可以被加強或減弱。長期突觸可塑性對學習至關重要,其背后的神經機制多年來一直在研究中。脈沖時序依賴可塑性(STDP)是突觸可塑性的一種無監督形式,在不同腦區[1-4]觀察到,特別是在視覺皮層[5-7]。STDP的工作原理是考慮突觸前和突觸后脈沖的時差。根據這一規律,如果突觸前神經元比突觸后神經元更早(晚)發放,則突觸增強(減弱)。研究表明,STDP產生符合檢測器,通過這種檢測器,神經元可以選擇頻繁的輸入脈沖模式,從而在模式出現時產生動作電位[8-11]。STDP能夠很好地發現統計上頻繁出現的特征;然而,作為任何無監督的學習算法,它在檢測罕見而可區分的特征以實現決策等重要功能上都面臨困難。
一些研究表明,大腦的獎勵系統在決策和行為形成中起着至關重要的作用。這也被稱為強化學習(RL),它鼓勵學習者重復獎勵行為,避免那些導致懲罰的行為[12–18]。研究發現,多巴胺作為一種神經調節劑,是獎勵系統中的重要化學物質[19],其釋放量與預期的未來獎勵成正比[17, 20, 21]。多巴胺和其他一些神經調節劑也影響突觸可塑性,如改變極性[22]或調整STDP的時間窗口[23-27]。
對獎勵系統的作用進行建模的一個很好的研究思路是調節甚至逆轉由STDP決定的權重變化,稱為獎勵調節STDP (R-STDP)[28]。R-STDP存儲符合STDP的突觸的跡,並在接收到調節信號時應用調節的權重變化:獎勵或懲罰(負獎勵)。
2007年,Izhikevich[29]提出了一個R-STDP規則來解決遠端獎勵問題,在這個問題上,獎勵不會立即收到。他用一個逐漸衰退的合格跡來解決這個問題,根據這個跡,最近的活動被認為是更重要的。他證明了其模型可以同時解決經典條件和起重要作用的條件[30, 31]。同年,Farries和Fairhall[32]使用R-STDP訓練神經元產生特定的脈沖模式。他們測量了輸出和目標脈沖訓練之間的差異來計算獎勵的價值。此外,Florian[33]還表明R-STDP能夠通過脈沖或時間輸入編碼來解決異或任務,並學習目標發放率。一年后,Legenstein et al.[34]研究了R-STDP達到預期學習效果的條件。他們通過理論分析以及在生物反饋和兩類別的孤立語音數字識別任務中的實際應用,證明了R-STDP的優越性。Vasilaki et al.[35]研究了R-STDP關於連續空間問題的思想。結果表明,該模型能夠較快地求解Morris水迷宮問題,而標准的策略梯度規則失效。通過Frémaux et al.[36]的工作繼續研究R-STDP的能力,其中理論上討論了成功學習的條件。結果表明,對R-STDP同時學習多個任務來說,預測期望獎勵是必要的。近年來,對大腦中RL機制的研究引起了人們的關注,研究人員試圖通過獎勵調節突觸可塑性來解決更實際的任務。
視覺目標識別是一項復雜的任務,在這方面人類是專家。這項任務既需要由大腦視覺皮層完成的特征提取,也需要對涉及更高大腦區域的目標類別做出決策。SNN在計算目標識別模型中得到了廣泛的應用。在網絡結構方面,有幾個模型具有淺層[40-43]、深層[44-46]、循環[47]、全連接[48]和卷積結構[40, 46, 49, 50]。一些使用基於脈沖的編碼[51–53],而另一些使用時態編碼[40, 43, 46, 48, 54]。從反向傳播[49, 55]、Tempotron[43, 56]和其他有監督的技術[52, 53, 57, 58],到無監督的STDP和STDP變體[42, 48, 59],各種學習技術也被應用於SNN。雖然支持STDP的網絡提供了一種更符合生物學原理的視覺特征提取方法,但它們需要外部讀出,例如支持向量機(SVM)[46, 60],來對輸入刺激進行分類。此外,STDP傾向於提取不一定適合所需任務的頻繁特征。本文提出了一種基於R-STDP的分層SNN算法,在不使用任何外部分類器的情況下解決了自然圖像中的視覺目標識別問題。相反,我們把特定類的神經元放在網絡中,如果它們的目標刺激被呈現給網絡,這些神經元會被增強到盡可能早的發放。因此,輸入刺激僅根據初次脈沖延遲以一種快速且生物學合理的方式進行分類。R-STDP使我們的網絡能夠找到特定任務的區分性特征,從而降低最終識別系統的計算成本。
我們的網絡基於Masquelier和Thorpe的模型[40],共有四層。網絡的第一層基於其定向邊緣的顯著性將輸入圖像轉換為脈沖延遲。這個脈沖序列在第二層執行局部池化操作。網絡的第三層包括多個網格的IF神經元,它們將接收到的定向邊緣信息結合起來,提取復雜的特征。這是我們網絡中唯一一個使用R-STDP進行突觸可塑性訓練的層。調節突觸可塑性的信號(獎懲)由第四層提供,在第四層作出網絡的決定。我們的網絡只使用第三層神經元發出的最早的脈沖信號來做決定,而不使用任何外部分類器。如果它的決定是正確的(不正確的),則會生成一個全局獎勵(懲罰)信號。此外,為了提高計算效率,網絡中的每個細胞只允許每幅圖像出現一次脈沖。每個神經元最多出現一個脈沖的動機不僅是計算效率,而且是生物學合理的[61, 62]。在沒有任何分類的情況下,每個神經元最多只能有一個脈沖,這樣的決策使得所提出的方法非常適合硬件實現。
我們做了兩個虛擬實驗來說明R-STDP的能力。我們發現采用R-STDP的網絡比STDP使用更少的計算資源來發現信息特征。我們還發現,如果需要的話,R-STDP可以通過鼓勵神經元忘卻以前所學到的東西來改變神經元的行為。因此,重用計算資源不再有用。此外,我們使用三個不同的基准,即Caltech face/motorbike (兩個類)、ETH-80 (八個類)和NORB (五個類),評估了所提出的自然圖像目標識別網絡。實驗結果表明,R-STDP比STDP更能有效地識別特定任務的特征。我們的網絡在Caltech face/motorbike上的性能(識別精度)達到了98.9%,在ETH-80上達到了89.5%,在NORB數據集上達到了88.4%。
本文的其余部分安排如下。第二節對提出的網絡作了詳細說明。然后,在第三節中,給出了實驗結果。最后,在第四節中,從不同的角度討論了所提出的網絡,並着重介紹了未來可能的工作。
II. MATERIALS AND METHODS
在這一部分中,我們首先描述了提出的網絡結構和每一層的功能。然后我們解釋R-STDP,通過它,神經元對一組特定的輸入刺激實現增強選擇性。最后,我們詳細描述了用於評估網絡性能的分類策略。
A. Overall Structure
與Masquelier和Thorpe的模型[40]相似,我們的網絡由兩個簡單層和兩個復雜層組成,以前饋方式交替排列(見圖1)。
網絡的第一層(S1)是一個簡單的層,其單元檢測輸入圖像中的定向邊緣。這些細胞發出一個延遲與邊緣顯著性成反比的脈沖。在S1之后,有一個復雜的層(C1),它通過應用局部池化操作引入了某種程度的位置不變性。C1神經元傳播在其輸入窗口中最早的脈沖。
第二個簡單層(S2)由IF神經元(詳解見后)組成。這一層的神經元檢測到一個復雜的特征,接收來自C1神經元的輸入,並在其膜電位達到閾值時產生一個脈沖。對於突觸可塑性,我們使用基於三個因素的學習規則:1)突觸前脈沖時間;2)突觸后脈沖時間;3)獎懲信號。這種突觸可塑性提供了根據神經元對輸入模式的選擇性來控制其行為的能力。
我們網絡的第二個復雜層(C2)是決策層。該層中的每個神經元被分配到一個類別,並對特定網格中的S2神經元執行全局池化操作。使用排序解碼方案,首先發放的神經元表示網絡對輸入圖像的決定。根據神經網絡的決策,產生獎懲信號,驅動S2神經元的突觸可塑性。
網絡的實現主要是用C#完成的,代碼可以在ModelDB (https://senselab.med.yale.edu/ModelDB/ShowModel?model=240369)上獲得。
IF神經元:
硬件模型:IF模型只有一個電容,沒有並聯的電阻,因為電阻實際等效於泄露電流,對應LIF模型。
B. Layer S1
該層的目標是從灰度輸入圖像中提取定向邊緣,並將其轉化為脈沖延遲。為此,輸入圖像被四個不同方向的Gabor濾波器(參見https://www.jianshu.com/p/f1d9f2482191)卷積。因此,該層包括4個特征圖,每個特征圖表示特定優選方向上的邊緣顯著性。
設I為灰度輸入圖像,G(θ)表示窗口大小為5×5的Gabor濾波器(卷積核),波長為2.5,有效寬度為2,方向為θ。然后,使用以下公式生成層S1的第 l 個特征圖:
其中⊗是卷積算子,l∈{1,2,3,4}。為了使圖像負運算具有不變性,采用卷積的絕對值。此外,由於垂直和水平邊緣在自然圖像中非常常見,因此應用a(π/8)偏移來放松這種偏差[40]。
對於每個特征圖(方向),我們放置一個大小相同的二維網格,其中包含虛擬神經元來傳播脈沖。使用強度-延遲編碼方案,將獲得的特征圖轉換為與邊緣顯著性成反比的脈沖延遲。換句話說,邊緣越突出,對應的脈沖傳播越早。
我們以基於事件的方式實現了所提出的網絡,其中脈沖按其延遲的升序排序並按順序傳播(即第一個脈沖在時間步驟t=1中傳播,第二個脈沖在t=2中傳播,依此類推)。
C. Layer C1
我們的第一個復雜層是來自層S1的脈沖上的局部池化層。這里,有四個二維神經元網格對應於每個方向。在特定網格中的S1神經元上,每個C1神經元用大小為ωc1×ωc1,步長為rc1(這里我們設置rc1=ωc1-1)的窗口執行局部池化操作,然后在接收到其最早的輸入脈沖后立即發放脈沖。這種池化操作減少了S1層的冗余,減少了所需神經元的數量,從而提高了計算效率。它還為定向邊緣的位置添加了局部不變性。
設Pc1(i)為C1層第 i 個神經元所有突觸前神經元的集合。然后,該神經元的發放時間計算如下:
其中表示Pc1(i)中第 j 個神經元的發放時間。
此外,還采用了兩種側向抑制機制,有助於網絡傳播更顯著的信息。如果位於第 i 個網格(方向)位置(x,y)的神經元進行發放:1)其他網格位於同一位置的神經元會被阻止發放;2)同一網格中相鄰神經元的延遲會增加一個與其歐式距離相關的因子。在我們的實驗中,對1到5個像素的距離(浮點距離被截斷為整數值)進行抑制,抑制因子分別為15%、12%、10%、7%和5%。
D. Layer S2
該層結合了剛收到的定向邊緣信息,將其轉化為有意義的復雜特征。這里有 n 個閾值為 T 的IF神經元二維網格。每個神經元通過可塑性突觸從C1神經元的一個ωs2×ωs2×4窗口接收輸入。對於同一個網格的神經元也采用了一種權重分享機制。這種機制提供了在整個空間位置檢測特定特征的能力。准確地說,Ps2(i)是與第 i 個神經元對應的所有突觸前神經元的集合。然后,該神經元在時間步驟 t 處的膜電位由以下公式更新:
其中Wij表示突觸權重,δ表示Kronecker delta函數,表示C1層第 j 個細胞的發放時間。對於每一幅輸入圖像,S2中的一個神經元的膜電位達到閾值 T。而且,這些神經元沒有泄漏,並且在呈現圖像時最多可以發放一次。
當神經元發放時,它們的突觸權重——它們所檢測到的特征——將根據突觸前和突觸后的脈沖順序以及獎懲信號進行更新(見第II-F節)。這個信號來自下一層的活動,它表示網絡的決定。此外,突觸的初始權重是隨機產生的,均值為0.8,標准差為0.05。注意,為均值選擇較小或中等范圍的值會導致神經元不活動而未被訓練。此外,較大的方差值增加了網絡初始狀態的影響。因此,具有小方差的高均值是合適的選擇[46]。
E. Layer C2
這一層正好包含 n 個神經元,每個神經元被分配到S2神經元網格中的一個。C2神經元只傳播從其相應的神經元網格接收到的第一個脈沖。換言之,將Pc2(i)定義為第 i 個神經元網格中的S2神經元集合(對於i∈{1,2,…,n})。然后,第 i 個C2神經元的發放時間計算如下:
其中表示第S2層第 j 個神經元的發放時間。
如前所述,C2神經元的活動表明了網絡的決定。為此,我們將C2神經元分為若干組,並將每組分配給特定類別的輸入刺激。然后,假設網絡對輸入刺激類別的決定是在C2組中最早傳播脈沖的組。
假設輸入刺激有 m 個不同的類別,標簽從 1 到 m,在S2層有 n 個神經元網格。因此,在C2層中 n 個神經元被分成 m 組。設表示返回C2神經元的組索引的函數,並令
表示第 i 個神經元在C2層的發放時間。然后,網絡的決策D由下式定義:
其中F是首先發放的C2神經元的索引。如果網絡的決策與輸入刺激的正確類別相匹配(不匹配),則它將獲得獎勵(懲罰)。如果沒有一個C2神經元發放,則不會產生獎懲信號,因此不會應用權重變化。此外,如果一個以上的神經元早發放(以最短的脈沖時間),則選擇索引(i)最小的神經元。
F. Reward-Modulated STDP
我們提出了一種RL機制來更新S2神經元的突觸前權重。這里,權重變化的大小由獎懲信號進行調節,獎懲信號根據網絡決策的正確性/不正確性接收。我們還應用了S2神經元之間的一個贏家通吃學習競賽,其中最早出現脈沖的神經元是贏家,也是唯一一個更新其突觸權重的神經元。注意,這個神經元是決定網絡決策的神經元。
為了制定我們的R-STDP學習規則,如果接收到獎勵信號,那么
如果收到懲罰信號,我們有下式:
其中 i 和 j 分別指突觸后細胞和突觸前細胞,ΔWij是連接兩個神經元的突觸的權重變化量,和
縮放權重變化的幅度。此外,為了指定權重變化的方向,我們設置
和
。在此,我們的學習規則沒有考慮確切的脈沖時間差,而是使用一個有限的時間窗口。根據這一學習規則,懲罰信號逆轉STDP的極性(也稱為anti-STDP)。換言之,它將長期抑制(LTD)與長期增強(LTP)進行交換,這是用來實施厭惡效應(避免重復不良行為),
是用來鼓勵神經元學習其他東西的。
G. Overfitting Avoidance
在RL問題中,有可能陷入局部最優,或是在訓練實例上獲得最大可能的獎勵。為了幫助該網絡,探索其他可能的解決方案,這些解決方案更一般地涵蓋已見和未見的例子,我們在訓練階段應用了兩種額外的機制。這些技術僅用於對象識別任務。
1) 自適應學習率:由於神經元的初始權重是隨機設置的,因此在訓練階段開始時,誤分類樣本的數量相對較高(即,性能處於chance level)。隨着訓練試驗的進行,正確分類樣本與錯誤分類樣本的比率增加。在高誤分類率的情況下,網絡接收更多的懲罰信號,這會迅速削弱突觸權重,並產生覆蓋少量輸入的死亡或高選擇性神經元。同樣,當正確分類率越高,獲得獎勵的比率也會增加。在這種情況下,網絡傾向於通過對正確樣本越來越多的選擇來排除錯誤分類的樣本,並對其他樣本保持沉默。無論哪種情況,過擬合都是由於獎懲的不平衡影響而導致的。
為了解決這個問題,我們用一個調整因子乘以權重修改量,通過這個因子,正確和錯誤的訓練樣本的影響在試驗中得到平衡。假設網絡在每次訓練迭代中看到所有訓練樣本,並讓Nhit和Nmiss分別表示在上一次訓練迭代中正確和錯誤分類的樣本數。如果N是所有訓練樣本的數量,則當前訓練試驗的權重變化修改如下:
注意,Nhit+Nmiss≤N,因為可能有一些樣本在S2神經元上都不活躍。
2) 隨機失活:在RL場景中,學習者的目標是最大化獲得獎勵的期望價值。在我們的例子中,由於網絡只看到訓練樣本,它可能會發現一些足以正確分類幾乎所有訓練樣本的特征。在面對復雜的問題時,這個問題似乎會導致嚴重的過擬合,網絡更傾向於讓一些神經元未經訓練。這些神經元在測試樣本上降低了網絡的命中率,因為它們盲目發放幾乎所有的刺激。
在此,我們采用了隨機失活技術[63],這使得C2神經元以pdrop的概率暫時關閉。這項技術提高了神經元的整體參與率,反過來,這不僅增加了發現更具區分性的特征的機會,而且降低了盲目發放率(見補充材料中的隨機失活)。
H. Classification
如前所述,最后一層的活動,特別是C2層最早的脈沖,是我們的網絡用於對輸入刺激做出最終決定的唯一信息。這樣,我們就不需要外部分類器,同時增加了網絡的生物學合理性。
為了建立 m 個類別的分類任務的網絡,我們在S2層放置n=k×m個神經元網格,其中 k 是與每個分類相關的特征數。然后,我們通過關聯函數將每個C2神經元分配到一個類別,定義如下:
然后,網絡使用(5)對輸入刺激進行分類。在訓練階段,將每個網絡的決策與刺激標簽進行比較,如果決策與標簽匹配(不匹配),則生成獎勵(懲罰)信號。
I. Comparison of R-STDP and STDP
在目標識別任務中,我們比較了我們的模型,SNN和R-STDP,以及使用STDP的模型。為此,我們首先使用STDP對網絡進行訓練,並讓網絡以無監督的方式提取特征。接下來,我們從S2層計算出三種長度為 n 的特征向量。
- 初次脈沖向量:這是一個二值向量,其中所有的值都是零,除了一個對應於具有最早脈沖的神經元網格的值。
- 脈沖計數向量:該向量保存每個網格中神經元發放的脈沖總數。
- 電位向量:這個向量包含了忽略閾值的每個網格中神經元之中的最大膜電位。
在為訓練集和測試集提取特征向量之后,使用K近鄰(KNN)和SVM分類來評估網絡的性能。此外,學習策略和STDP公式與文獻[40]相同,為了進行公平比較,我們在兩個模型中使用相同的參數值。研究STDP的唯一參數是LTP和LTD的幅度。
III. RESULTS
為了評估所提出的網絡和學習策略,我們進行了兩類實驗。首先,我們用一系列手工問題來說明R-STDP相對於STDP的優越性。其次,我們在多個目標識別基准上評估所提出的網絡。
A. R-STDP Increases Computational Efficiency
使用STDP,當一個神經元暴露在輸入的脈沖模式下時,它傾向於找到最早的重復子模式。通過該模式,神經元達到其閾值並發放[8, 11, 64, 65]。這種有利於早期輸入脈沖的傾向在與脈沖模式有時差的后期部分進行區分的情況下,可能是麻煩的。
假設有幾類輸入刺激具有相同的空間結構[圖2(a)]。它們也有相同的早期脈沖。這些模式被重復地呈現給一組IF神經元,其突觸可塑性受STDP與贏家通吃機制控制。如果神經元的閾值較低,其中一個神經元會選擇輸入刺激的早期公共部分,並抑制其他神經元。由於所有輸入刺激的早期部分在空間和時間上是相同的,所以其他神經元沒有機會發放並贏得突觸可塑性。因此,對於所有的輸入刺激,神經元群的整體活動是相同的,並將它們歸類為一個單一的類別。
我們將在圖2(c)中看到,也有一些基於STDP的解決方案,但是,它們在使用計算資源方面是不夠的。例如,如果我們增加感受野的大小和閾值,神經元就有機會接收到最后的脈沖和早期的脈沖。另一種可能的解決方案是使用多個局部相互抑制的神經元,去掉一個贏家通吃的約束。這樣,對於初始隨機權重,神經元就有機會學習輸入刺激的其他部分。
在此,我們證明R-STDP學習規則比STDP更有效地解決了這個問題。為此,我們設計了一個包含兩個3×11輸入刺激的實驗。輸入在空間上是相似的,這意味着脈沖從兩個輸入的相似位置傳播。如圖2(a)所示,每個輸入是由白色和灰色正方形組成的二維網格。用白色(灰色)正方形表示脈沖(不)傳播過來的位置。在向網絡呈現這些模式中任何一個的時刻,脈沖以時間順序傳播,時間順序由寫在正方形上的數字確定。根據這個順序,數值越低的脈沖傳播越早。
由於輸入刺激是人造脈沖模式,因此不需要應用Gabor濾波器,因此,它們被直接輸入S2層。在那里,我們放置了兩個參數為ωs2=3且T=3的神經元網格。因此,每個網格包含1×9個神經元來覆蓋整個輸入刺激。
我們還設置和
。這項任務的目標是第一個(第二個)C2神經元在第一個(第二個)模式中更早發放。我們研究了STDP和R-STDP的學習規則,看看網絡是否發現了區別性特征。
如圖2(b)所示,使用STDP,網絡提取了非區別性特征,即兩個輸入刺激之間的共享特征。另一方面,所提出的RL機制引導神經元提取特征,其出現的時間順序是導致模式識別成功的唯一因素。我們使用不同的隨機初始權重重復這個實驗100次。結果表明,我們的網絡成功率達98%,而STDP卻沒有機會發現區別性特征。當我們將閾值增加到4(至少需要兩個子模式),並將感受野的大小增加到11×11(覆蓋整個模式)時,使用STDP的網絡也可以在80%的時間內找到區別性特征[見圖2(c)]。
B. Plastic Neurons
如前所述,大腦獎勵系統在特定行為的出現中起着重要作用。在這一節中,我們展示了R-STDP在線調節神經元行為的能力。
我們設計了一個實驗,在模擬過程中,神經元預先設定的期望行為會發生改變。實驗設置與具有相似輸入刺激和參數值的"時間辨別"任務非常相似,只是我們在訓練迭代期間交換了目標輸入刺激[參見圖3(a)中的任務1和2]。如圖3(b)所示,在模擬開始時,期望的行為是屬於第一個網格的神經元對第一個刺激的反應早於第二個網格的神經元,反之亦然。經過200次迭代后,當充分收斂時,我們交換了目標刺激。在這個階段,由於神經元對先前的目標刺激完全敏感,它們開始產生假警報。因此,網絡在大約80次迭代中(參見圖3(b)中第200到280次迭代)接收到高懲罰率,這反過來交換了LTD和LTP(參見第II-F節)。隨着神經網絡受到懲罰,先前減弱(加強)的突觸得以增強(減弱)。因此,敏感度降低了一段時間,神經元重新獲得了學習新事物的可能性。經過300次迭代后,神經元發現了新的目標刺激,並再次收斂到區分性特征上(參見圖3(b)中前兩行的突觸權重圖)。
總之,R-STDP能使神經元忘卻迄今為止所學的知識。這種能力導致神經元具有靈活的行為(可塑性神經元),能夠在不斷變化的環境中學習有益的行為。這種能力也有助於神經元忘記並逃離局部最優狀態,以便學習能獲得更多獎勵的東西。在這樣的場景中應用STDP根本不起作用,因為從無監督的角度來看,任務1和任務2之間沒有區別。
C. Object Recognition
在這一部分中,我們評估了我們的網絡在自然圖像分類方面的性能。我們首先描述實驗中使用的數據集。然后,我們展示了如何利用RL機制從自然圖像中提取特征,然后在目標識別任務中比較了R-STDP和STDP。最后,我們說明了隨機失活和適應性學習技術如何減少訓練樣本過擬合的機會。
1)數據集:我們使用三個著名的目標識別基准來評估所提出的網絡的性能。第一個也是最簡單的一個是Caltech face/motorbike,主要用於演示目的。后兩個用於評估所提出網絡的數據集是ETH-80和small NORB。這些數據集包含來自不同視點的目標圖像,這使得任務更加困難(參見補充材料中的圖S1)。
2)增強選擇性:先前的實驗表明,R-STDP使網絡能夠在空間和時間上發現信息性和區分性特征。在此,我們證明R-STDP鼓勵神經元對特定類別的自然圖像具有選擇性。為此,我們對網絡進行了訓練,並對來自Caltech數據集的人臉和摩托車這兩類圖像進行了測試。
在這個實驗中,我們為每一個類別放置了10個神經元網格,為了贏得初次脈沖競爭,這些網格被增強,以響應來自其目標類別的圖像。因此,網絡的期望行為是前10個網格的神經元對人臉類別有選擇性,而其他網格的神經元對摩托車有選擇性。
圖4展示了網絡在訓練迭代期間的行為。因為早期的迭代包含了快速的變化,所以它們被繪制得更寬。在早期的迭代過程中,強突觸權重(見第II-D節)和50%的隨機失活率會導致一個不穩定的網絡,其神經元對隨機輸入刺激作出反應。這種混沌行為在中間圖的早期迭代中很容易被發現[見圖4(b)]。隨着網絡不斷訓練迭代,獎懲信號使神經元對目標類別的選擇性越來越強。如圖4(b)所示,在200次迭代之后,對訓練樣本顯示出相當健壯的選擇性,而在測試樣本上,它被延長了300次迭代。訓練樣本的這種快速收斂是由於網絡在發現成功區分所見樣本的特征方面相對較快[見圖4(a)]。這些主要特性需要收斂到更適合於測試樣本的地方,因為自適應學習率的存在,這需要更多的迭代。此外,我們不允許學習率下降到參數值的20%以下。這允許網絡以恆定速率繼續收斂,即使所有訓練樣本都被正確分類[參見圖4(c)]。
我們用隨機的初始權重和不同的訓練和測試樣本重復了30次實驗,所提出的網絡的性能達到了98.9±0.4%(均值±標准差)。當我們用STDP嘗試相同的網絡結構時,97.2%是它最好的性能(見表一)。
3) 性能:我們已經展示了該網絡是如何成功地將摩托車與人臉進行高精度分類的。在此,我們研究了在更具挑戰性的ETH-80和NORB數據集上該網絡的性能(見補充材料中的數據集)。在每次訓練迭代后,在整個測試集上測試網絡的性能,其中網絡以隨機順序接收所有訓練樣本。
對於ETH-80數據集,我們將網絡配置為每個類別提取10個特征,導致全部特征數目是8×10=80。S2層中每個神經元的感受野設置為覆蓋整個輸入圖像。在此,每個類別的9個實例作為訓練樣本提交給網絡,其余的在測試階段使用。經過250次訓練和測試迭代,網絡的測試性能達到了最佳。
再次,我們重復這個實驗30次,每次使用不同的訓練和測試集。如前所述,該網絡成功地提取了區分性特征(參見補充材料中的圖2),並且達到了89.5±1.9%(均值±標准差)。我們還將STDP應用於具有相同結構的網絡。為了檢驗STDP的性能,我們使用線性核SVM和KNN (K從1變為10)。當最大電位作為特征向量且分類為KNN時,根據計算結果,該網絡的精度為84.5%。考慮到所提出的網絡僅基於初次脈沖信息對輸入模式進行分類,R-STDP的性能優於STDP。表一提供了R-STDP和STDP之間比較的詳細情況。
通過查看混淆矩陣[參見補充材料中的圖3(a)],我們發現R-STDP和STDP都同意最易混淆的類別,即牛、狗和馬。然而,由於RL,R-STDP不僅降低了混淆誤差,而且提供了更均衡的誤差分布。
同樣的實驗也在NORB數據集上進行。同樣,我們為五個類別中的每一個放置了10個神經元網格,它們的神經元能夠看到整個傳入的刺激。用R-STDP構建的網絡在測試樣本上的性能達到88.4±0.5%(均值±標准差),而STDP最多達到66%。通過回顧兩種方法的混淆矩陣,我們發現這兩種網絡都遇到了困難,主要是在區分四條腿的動物和人類,以及汽車和卡車[參見補充材料中的圖3(b)]。和以前一樣,R-STDP產生了更均衡的誤差分布。
此外,我們還將提出的網絡與CNN進行了比較。盡管所提出的網絡不能打敗VGG16[66]等預訓練的深度CNN (DCNN)(見補充材料中與深度卷積神經網絡的比較),但將其與具有類似網絡結構和相同輸入的淺層CNN進行比較是公平的。我們使用一個淺層CNN重復了所有的目標分類實驗,這個CNN以Keras神經網絡API和Tensor flow作為后端。如表1所示,所提出的網絡在ETH-80和NORB數據集上均成功地優於監督CNN。
4) 過擬合問題:過擬合是監督或RL場景中最常見的問題之一。隨着深度學習算法的出現,這個問題變得更加嚴重。許多研究集中在開發提高學習算法泛化能力的技術上。在深度神經網絡中顯示出有希望的經驗結果的機制之一是隨機失活技術[63]。這項技術通過抑制特定數量神經元的活動,暫時降低了網絡的復雜性。這種神經元資源的減少迫使網絡進行更多的泛化,以減少預測誤差。
所提出的網絡也不例外,而且通過我們的測試,已經顯示出對訓練樣本的過擬合的趨勢。因此,我們在實驗中采用了隨機失活技術。我們還發現,穩定的學習率確實會增加過擬合的機會。因此,我們使用了與網絡性能相關的動態學習率(見第II-G節)。
為了說明上述機制的影響,我們以不同的隨機失活率和穩定的學習率重復了目標識別實驗。圖5同時展示了上述兩種機制對測試樣本分類的影響。很明顯,當采用自適應學習率機制時,網絡取得了更高的性能(實線)。文中還指出,必須根據數據集和網絡的復雜性來選擇隨機失活率。由於NORB數據集包含比ETH-80更復雜的樣本,因此它更傾向於對訓練樣本進行過擬合。因此,它需要更多的隨機失活率來克服這個問題。當使用穩定的學習率時,這種趨勢的程度更加明顯。換言之,更快的收斂速度以及樣本的復雜性會導致更高的過擬合,而這反過來又需要更高的隨機失活率。
IV. DISCUSSION
哺乳動物對視覺目標的識別速度快且准確。他們的視覺皮層以一種分層的方式處理輸入的數據,通過這種方式,神經元偏好的復雜性逐漸增加。這種層次化處理提供了一種穩健和不變的目標識別[67–71]。哺乳動物視皮層的計算模型研究已經有很多年了。開發一個生物學上合理的模型不僅使科學家能夠以低成本檢驗他們的假設,而且還為人工智能機器提供了一個類似人類的視野[40, 72, 75]。
DCNN是這方面最成功的工作[63, 66, 76–78]。這些網絡背后的想法受到視覺皮層層次結構的啟發。盡管DCNN取得了很有希望的結果,但由於使用了監督學習規則,它們在生物學上並不合理。此外,它們采用基於脈沖的編碼方案,既消耗能量又消耗資源。還有一組研究試圖使用脈沖神經元和無監督STDP學習規則[40, 42, 46, 48, 59]。這些模型在生物學上更為合理,但在准確性方面無法超過DCNN。理論上,SNN比DCNN具有更強的計算能力,但由於其復雜的動態特性和高維的有效參數空間,使得其難以控制。此外,由於大多數模型都是在無監督的情況下接受訓練的,因此分類步驟是通過外部分類器或統計方法完成的。
在此,我們使用一個帶有稱為R-STDP的RL規則的分層SNN來解決目標識別任務。有幾項研究表明,大腦使用RL來解決決策問題[15-18]。因此,對於能夠決定輸入圖像類別的特定類神經元來說,它是一個合適的選擇。因此,我們進一步發展了一個更符合生物學原理的模型,該模型能夠完全獨立地進行視覺分類。所提出的網絡功能在時域內,其中的信息是由脈沖時間編碼的。輸入圖像首先用定向Gabor濾波器卷積,然后基於延遲-強度編碼方案生成脈沖序列。生成的脈沖隨后傳播到特征提取層。利用R-STDP,提出的網絡利用預先分配給類標簽的神經元,成功地找到了特定任務的區分性特征。換言之,每個神經元被分配到一個先驗類,其期望的行為是對屬於特定類的實例做出早期響應。為了進一步降低計算成本,神經元被強迫對輸入圖像進行至多一次的發放,並且其脈沖的延遲被認為是刺激偏好的度量。因此,如果一個神經元比其他神經元更早發放,它就會收到它所偏好的刺激。這種偏好的衡量方法可以作為網絡決策的指標。也就是說,當一個屬於某個特定類別的神經元更早發放時,網絡的決定被認為是該類別。
通過實驗,我們從不同角度對R-STDP和STDP進行了比較。我們證明了R-STDP可以節省計算資源。這是由一個手工設計的辨別任務來解釋的,在這個任務中,脈沖的順序是唯一的區分性特征。R-STDP用最少的神經元、突觸和閾值解決了這個問題,而STDP需要更多的神經元、突觸和閾值。STDP的這個缺點是因為它傾向於發現統計上頻繁出現的特征[8-11],而這些特征不一定是區分性特征。因此,需要使用更多的神經元或更多的突觸,以確保最終發現區分性特征。另一方面,由於R-STDP會通知神經元它們的結果,它們可以使用最少的資源更好地工作。
在展示了R-STDP在發現區分性特征方面的優勢之后,我們研究了如何將其與層次SNN結合起來,以一種生物學合理的方式解決視覺特征提取和目標分類問題。我們在Caltech face/motorbike、ETH-80和NORB這三個自然圖像數據集上評估了所提出的網絡和使用STDP的類似網絡,以及具有相同結構的CNN。最后兩個包含來自不同視角的目標圖像,這使得任務更加困難。當我們比較網絡的性能時,我們發現R-STDP的性能比STDP和相同結構的CNN強。更有趣的一點是,所提出的網絡僅基於初次脈沖就實現了這種優勢決策,而對於其他網絡,即使是SVM和誤差反向傳播等強大的分類也沒有任何幫助。
為了比較R-STDP和STDP,除了學習率外,兩個網絡使用相同的參數值(見第II-I節)。然而,可以使用具有更高數量的神經元和調節閾值的STDP來補償盲目的無監督特征提取並獲得更好的性能[60]。再次,我們得出結論,R-STDP有助於網絡更有效地消耗計算資源。
綜上所述,提出的網絡具有以下突出特點。
- 自然圖像中魯棒的目標識別。
- 每個神經元在每張圖像中只允許出現一次脈沖。這導致了能源消耗的大幅減少。
- 決策(分類)使用初次脈沖延遲而不是強大的分類來執行。因此,模型的生物學合理性得到了提高。
- 突觸可塑性受RL (R-STDP規則)支配,可以找到支持這一規則的生物學證據[28],並允許提取高度區分性特征。
我們的網絡對於神經形態工程來說可能很有趣[79],因為它在生物學上是合理的,而且對硬件也是友好的。盡管硬件實現和效率不在本文的討論范圍內,但我們認為,基於以下幾個原因,可以以節能的方式在硬件中實現所提出的網絡。首先,SNN比傳統的人工神經網絡更適合硬件,因為能耗高的"乘法累加器"單元可以被更節能的"累加器"單元替代。為此,近年來,關於訓練深度卷積SNN (DCSNN)[44, 46]和將DCNN轉化為DCSNN[80]以及受限DCNN[81-83]的研究引起了人們的興趣。其次,大多數SNN硬件使用事件驅動的方法,將脈沖視為事件。這樣,能量消耗會隨着脈沖的數量而增加。因此,通過允許每個神經元最多有一個脈沖,所提出的模型是盡可能有效的。最后,與基於高精度梯度的權重更新給硬件實現帶來困難的深度網絡中的誤差反向傳播相比,本文提出的學習規則更適合於在線片上學習。
到目前為止,我們還沒有找到其他具有上述特點的工作。提到最近的一次嘗試,Gardner et al.[84]試圖通過一個配備R-STDP的讀出神經元來對泊松分布的脈沖序列進行分類。雖然他們的方法是有效的,但由於其基於時間的編碼和目標標簽,它不能應用於自然圖像。Huerta和Nowotny[85]的另一項相關工作是,作者設計了蘑菇體內RL機制的模型。他們將RL機制應用於一個隨機連接的神經元池中,其中有10個讀出神經元來對手寫數字進行分類。本文在幾個方面與他們的工作不同。首先,我們使用基於哺乳動物視覺皮層的層次結構,而他們使用隨機連接的神經元。其次,我們使用R-STDP學習規則,而他們使用概率方法來研究突觸可塑性。第三,我們的網絡輸入是自然圖像,使用強度-延遲的編碼,而他們使用二值編碼和人工圖像的閾值。
盡管所提出的網絡的結果明顯優於采用帶外部分類器的STDP的網絡,但它們仍然無法與最先進的深度學習方法競爭。當前方法的一個限制是只使用一個可訓練層。此外,最后一層神經元的感受野設置得足夠大,足以覆蓋圖像的信息部分。因此,除非使用越來越多的神經元,否則網絡無法抵抗物體的高變化率。擴展現有網絡的層數是未來研究的方向之一。通過提供一個從簡單到復雜的漸進特征提取,加深層次似乎可以提高性能。然而,更深層次的結構需要更多的參數調整和合適的多層突觸可塑性規則。最近的研究也表明,將深度網絡和RL結合起來可以得到顯著的結果[86, 87]。
未來研究的另一個方向是利用RL學習語義關聯。例如,STDP能夠從不同的角度提取不同種類動物的特征,但由於不同的動物沒有共同出現的理由,因此它不能將所有的特征都歸入"動物"的范疇。或者,它可以為正臉和側臉提取特征,但它不能生成一個關聯,將兩者都歸入"人臉"的一般類別。另一方面,通過強化信號和使用學習規則,如R-STDP,神經元不僅能夠提取區分性特征,而且能夠學習類別之間的相對聯系,並創建超類。