鄭重聲明:原文參見標題,如有侵權,請聯系作者,將會撤銷發布!
Neural Networks 2021
Abstract
脈沖神經網絡(SNN)旨在復制生物大腦的能源效率、學習速度和時間處理。然而,此類網絡的准確性和學習速度仍落后於基於傳統神經模型的強化學習(RL)模型。這項工作將預訓練的二值卷積神經網絡與通過獎勵調節的STDP在線訓練的SNN相結合,以利用兩種模型的優勢。脈沖網絡是其先前版本的擴展,在架構和動態方面進行了改進,以應對更具挑戰性的任務。我們專注於對所提出的模型進行廣泛的實驗評估,這些模型具有優化的最先進基准,即近端策略優化(PPO)和深度Q網絡(DQN)。這些模型在具有高維觀察的網格世界環境中進行比較,該環境由高達256×256像素的RGB圖像組成。實驗結果表明,所提出的架構可以成為評估環境中深度強化學習(DRL)的競爭替代品,並為脈沖網絡的更復雜的未來應用奠定基礎。
Keywords: spiking neural networks, binary neural networks, STDP, reinforcement learning.
1. Introduction
機器學習的許多最新進展都受到大自然的啟發。目前的工作旨在拉近兩個植根於神經科學和生物學見解的領域:強化學習(RL)和脈沖神經網絡(SNN)。強化學習是一種旨在重現動物學習方式的范式(Sutton & Barto, 2018)。與監督學習場景相比,可以訓練RL智能體來執行任務,而無需專家教師或有關如何實現目標的清晰、分步知識。通常,智能體能夠重復試驗並在成功執行一系列動作后獲得獎勵就足夠了。請注意,例如,通過食物獎勵訓練實驗室老鼠在迷宮中導航的方式的相似性。雖然RL的基礎已經在三年前奠定(Sutton, 1988),但過去十年深度學習(DL)的進步使訓練RL智能體能夠處理越來越復雜的任務。最近一些深度強化學習(DRL)應用的例子包括玩Atari游戲(Mnih et al., 2015)、學習腿式機器人的敏捷和動態運動技能(Hwangbo et al., 2019)以及從頭開始訓練機器人操縱器(O. M. Andrychowicz et al., 2020; Gu et al., 2017)。然而,工程系統在快速學習新的復雜任務的能力方面仍然遠遠落后於動物系統。雖然DRL能夠在大量計算預算下掌握特定技能,但大自然已經進化出能夠快速適應和學習新技能的有機體(Cully et al., 2015)。
這種限制部分是由於人工神經網絡(ANN)的訓練過程,它構成了DRL智能體的大腦。此類網絡的訓練通常涉及存儲在單獨存儲器中的大量示例。此外,經過訓練的網絡通常也需要比生物大腦更多的功率,從而限制了在具有嵌入式電子設備或其他有限電源的設備上的應用(Bing et al., 2018)。
傳統的人工神經網絡使用連續信號來逼近未知函數。相比之下,SNN使用離散脈沖並隨時間處理信息。單線突觸的使用允許在低功耗神經形態芯片中實現SNN,能夠實時模擬多達108個脈沖神經元(Frady et al., 2020; Thakur et al., 2018)。當使用適當的傳感器(例如動態視覺傳感器(DVS))(Gallego et al., 2019)時,此類神經形態硬件還能夠提供低延遲的感官響應。基於光學硬件的實現已被證明可以進一步減少延遲並提高較小脈沖網絡的模擬速度(Feldmann et al., 2019)。
SNN可以使用受生物學啟發的算法進行訓練,稱為脈沖時序相關可塑性(STDP)。這種方法的一個優點是每個突觸只需要知道突觸前和突觸后神經元產生的脈沖。通過將STDP與全局強化信號(R-STDP)相結合,脈沖智能體可以在不計算全局誤差梯度的情況下解決RL任務。這個過程如圖1所示。
目前的工作通過提供以下貢獻來推進該領域:
1. 一種新穎的脈沖架構被提出並演示,以從RGB圖像作為輸入的稀疏和延遲獎勵中學習。
2. 優化了網絡輸入層和隱含層之間突觸的稀疏性,並顯示出對學習速度和准確性有顯著影響。
3. 在評估環境中,所提出的網絡在學習速度和學習策略的最終延遲方面均顯示出與最先進的DRL算法的競爭力。
此篇文章的結構如下。第2節提供了相關文獻的回顧和與當前工作的比較。第3節描述了所提出的模型,並在第4節中與基准模型進行了實驗比較。總結性評論和對未來可能的努力的討論可以在第5節中找到。額外的實驗和演示代碼作為補充材料提供。
2. Related works
Izhikevich (2007)、Florian (2007)和Legenstein et al. (2008)獨立地為R-STDP調節脈沖網絡奠定了基礎。為了證明這種方法的計算能力和時間能力,Florian (2007)展示了一個由脈沖神經元組成的完全連接的多層網絡,以解決具有延遲獎勵的時間編碼XOR問題。雖然理論模型已經使用獎勵調節的STDP超過十年,但最近的研究提供了資格跡在強化學習中作用的實驗證據(Gerstner et al., 2018)。本工作中使用的R-STDP規則是Florian (2007)工作中發現的RMSTDPET的簡化版本。
Potjans et al. (2011)和后來的Frémaux et al. (2013)提出了具有時序差分(TD)的actor-critic模型。Frémaux and Gerstner (2016)隨后引入了一個更一般的三因素學習規則。這些早期模型的一個缺點是,實現的網絡在輸入層對觀察到的狀態進行完全編碼,功能上類似於經典的表格RL算法。換句話說,輸入層中的每個神經元用於編碼環境的特定狀態。我們在上一篇論文(Chevtchenko & Ludermir, 2020)中通過一個帶有隱含位置單元的四層網絡解決了可伸縮性方面的限制。目前的工作重點是修改該結構,以展示與具有圖像觀測的最先進DRL算法相當的性能。
Nakano et al. (2015)先前通過基於自由能的RL模型的脈沖版本(Otsuka et al., 2010)解決了從具有延遲獎勵的圖像中訓練SNN的問題。使用T-迷宮環境驗證了所提出的模型,該模型包含來自MNIST數據集的28×28二值圖像的視覺線索。目前的工作是在這個任務的一個更具挑戰性的版本上進行評估的,使用高達256×256像素的RGB圖像。受Nakano et al. (2015)的啟發,我們還評估了預先訓練的二值CNN作為特征提取器。然而,該網絡在不同於測試環境中顯示的圖像集上進行訓練。
Wunderlich et al. (2019)使用R-STDP制作一個小型脈沖網絡,學習在BrainScaleS 2神經形態系統上玩簡化版的Atari游戲pong。這項工作的主要目的是證明神經形態硬件的功耗優勢,並且所提出的架構具有與以前工作類似的可擴展性限制。
Kaiser et al. (2019)提出了一個與機器人模型交互的神經模擬框架。先前提出的突觸可塑性規則SPORE (Kappel et al., 2018)通過少量視覺神經元(分別為16×16和16×4)提供的觀察結果,對球平衡和線跟蹤任務進行評估。作者指出,隨着時間的推移,逐漸降低學習率可以提高算法的性能。這項工作為加入機器人技術和脈沖網絡領域做出了重要貢獻。然而,該框架旨在模擬生物真實的神經元和突觸,與深度學習方法相比,沒有表現出競爭性的性能。雖然生物學合理性並不是最先進性能的明顯障礙,但在目前的工作中,我們選擇將所提出的模型與現代DRL算法進行比較(Mnih et al., 2015; Schulman et al., 2017)。
Tang et al. (2020)最近探索了一種訓練SNN的混合方法。在這項工作中,使用DDPG算法(Lillicrap et al., 2015),深度學習critic協助訓練脈沖actor。因此,當critic網絡成功地逼近環境的獎勵函數時,脈沖actor可以有效地部署在機器人上。對聯合訓練進行了優化,結果表明,與單獨使用DDPG和DDPG到脈沖的轉換方法相比,聯合訓練在測試環境中更有效。另一方面,Bing et al. (2020)最近的另一項工作將通過R-STDP訓練的脈沖網絡與DQN到脈沖的轉換進行了比較。在評估的車道跟馳任務中,訓練后R-STDP比DQN轉換為脈沖網絡更有效。類似地,在目前的工作中,我們將預先訓練的二值CNN與通過R-STDP訓練的脈沖模型相結合,並表明它與PPO和DQN算法具有競爭力。
Bellec et al. (2020)提出了一種稱為e-prop的學習規則,並將其應用於循環脈沖網絡。該規則被證明近似於在兩個離散Atari游戲上通過時間反向傳播訓練的LSTM網絡的性能。這是一種很有前途的方法,值得注意的是,脈沖循環網絡是在線訓練的,每一步只接收當前幀。然而,結果沒有直接與DRL方案進行比較,學習速度也沒有得到解決。與目前的工作類似,在模擬過程中,與資格跡相關的時間參數逐漸增加。當前的工作重點是展示學習速度和質量方面的競爭力,將我們的方法與優化的最新RL算法進行比較。在未來,我們打算探索循環連接以及卷積脈沖網絡的在線訓練,這兩種情況均出現在Bellec et al. (2020)中。
Chung and Kozma (2020)獨立於Bellec et al. (2020),提出了一種基於STDP的反饋調節脈沖網絡學習規則。學習規則是基於發放率而不是單個脈沖。雖然該網絡被證明能夠解決兩個經典控制問題,但其性能與Sutton and Barto (2018)的在線actor-critic智能體相當。在之前的工作(Chevtchenko & Ludermir, 2020)中,我們已經證明,在類似於Chung and Kozma (2020)中發現的控制任務上,所提出的脈沖模型可以優於DQN算法。
3. The proposed network
所提出的模型基於先前引入的脈沖結構(Chevtchenko & Ludermir, 2020)。網絡的主要組件及其與環境的交互如圖2所示。智能體與環境的交互是以循環的方式完成的。在每一步中,環境都會被智能體的動作修改,並提供新的觀察結果,以及適當時的標量獎勵信號。以下各節更詳細地描述了模型的結構和動力學。
3.1. Neural model
3.2. Feature extraction network
3.3. Input and hidden layers
3.4. Place neurons
3.5. Output layer
4. Experimental evaluation
4.1. Environment
4.2. Baseline models
4.2.1. Deep Q network
4.2.2. Proximal policy optimization
4.3. Hyperparameter optimization
4.3.1. Baseline algorithms
4.3.2. The proposed network
4.4. Results
4.4.1. Connectivity optimization
4.4.2. Comparison with baseline models
4.4.3. Impact of hyperparameters
4.5. Discussion and summary
5. Conclusion and final remarks
5.1. Future work
Appendix A. Supplementary material
Appendix A.1. Input-hidden connectivity
Appendix A.2. Place neurons
Appendix A.3. Connectivity optimization
Appendix A.4. PPO with BinaryNet
Appendix A.5. Grid-world with positional observations
Appendix A.6. Scalability in terms of image size