Population-coding and Dynamic-neurons improved Spiking Actor Network for Reinforcement Learning

本文轉載自查看原文 2021-06-18 15:05 194 SNN-RL/ 類腦智能

鄭重聲明：原文參見標題，如有侵權，請聯系作者，將會撤銷發布！

Accepted by Journal of Neural Networks (2021)

Abstract

　　深度神經網絡(DNN)作為強大的函數近似器，深度強化學習(DRL)在機器人控制任務中得到了出色的展示。與具有普通人工神經元的DNN相比，生物學合理的脈沖神經網絡(SNN)包含多樣化的脈沖神經元群體，使其在具有空間和時間信息的狀態表征方面自然而然地強大。基於混合學習框架，其中脈沖actor網絡從狀態推斷動作，深度critic網絡評估actor，我們提出了群體編碼和動態神經元改進的脈沖actor網絡(PDSAN)，用於兩個不同尺度的有效狀態表征：輸入編碼和神經元編碼。對於輸入編碼，我們應用具有動態接受域的群體編碼來直接編碼每個輸入狀態分量。對於神經元編碼，我們提出了不同類型的動態神經元(包含一階和二階神經元動態)來描述更復雜的神經元動態。最后，使用雙延遲深度確定性策略梯度算法結合深度critic網絡對PDSAN進行訓練(TD3-PDSAN)。廣泛的實驗結果表明，我們的TD3-PDSAN模型在四個OpenAI gym基准任務上取得了比最先進模型更好的性能。使用SNN改進RL以實現滿足生物學合理性的有效計算是一個重要的嘗試。

1. Introduction

　　強化學習(RL)在機器學習算法的世界中占有一席之地[1]，其中模型以試錯的方式與環境交互，並通過最大化累積獎勵來學習最優策略，從而達到優秀決策性能[2]。然而，對於傳統的強化學習，在復雜的高維狀態空間中有效地提取和表示特征是一個具有挑戰性的問題。深度強化學習(DRL)通過使用深度神經網絡(DNN)直接從高維原始輸入中提取特征，在一定程度上解決了這個問題。因此，DRL可用於解決復雜任務[3]中智能體的決策問題，例如推薦系統[4, 5]、游戲[6, 7]和機器人控制[8, 9, 10]。

　　脈沖神經網絡(SNN)的靈感來自於生物大腦，它自然是用於復雜環境交互強化學習的基本智能體。與具有普通人工神經元的DNN相比，SNN固有地傳輸和計算具有隨時間分布的動態脈沖的信息[11]。SNN在時間和空間維度上基於脈沖的信息編碼將有助於增強RL中更強大的狀態表征[12, 13]。

　　SNN的輸入編碼尺度上有兩大類信息編碼(發放率和時間類型)。發放率編碼使用時間窗口中脈沖序列的發放率對信息進行編碼，其中輸入實數被轉換為頻率與輸入值成正比的脈沖序列[14, 15]，時間編碼用單獨脈沖的相對時間來編碼信息，其中輸入值通常轉換為具有精確時間的脈沖序列[16, 17, 18, 19]。除此之外，群體編碼在整合這兩種類型方面是特殊的。例如，群體中的每個神經元都可以生成具有精確時間的脈沖序列，並且還包含與其他神經元的關系(例如，高斯感受野)，以便在全局范圍內進行更好的信息編碼[20, 21]。

　　對於SNN的神經元編碼尺度，有多種類型的脈沖神經元[22, 23]。IF神經元是最簡單的神經元類型。當膜電位超過發放閾值時IF神經元發放，電位會被重置為預定的靜息膜電位[24]。另一個LIF神經元通過引入泄漏因子，允許膜電位隨着時間的推移而不斷縮小[22]。它們通常用作標准的一階神經元。此外，提出了具有二階膜電位公式的Izhikevich神經元，它可以更好地表示復雜的神經元動態，但需要一些預先定義的超參數[25]。

　　在本文中，基於混合學習框架，其中脈沖actor網絡從狀態推斷動作，深度critic網絡評估actor，我們提出了一種群體編碼和動態神經元改進的脈沖actor網絡(PDSAN)用於兩個不同尺度的有效狀態表征：網絡外的輸入編碼和網絡內的神經元編碼。對於輸入編碼，我們將群體編碼應用於輸入狀態，其中使用可學習的感受野組對每個輸入組件進行編碼。編碼后的模擬信息直接輸入網絡，提高計算效率和狀態表征能力。對於神經元編碼，具有一階或更高階膜電位動態的不同類型的動態神經元(DNs)被提出，並結合群體編碼以獲得更強的狀態表征能力。與預先定義的Izhikevich神經元不同，動態神經元從OpenAI gym[26]任務之一(例如，Antv3)中自學，然后擴展到其他類似的任務(例如，HalfCheetah-v3、Walker2d-v3和Hopper-v3)假設相似的任務很可能共享相似的參數。最后，所提出的PDSAN與雙延遲深度確定性策略梯度算法(TD3-PDSAN)[27]相結合，以學習標准OpenAI gym[26]中四個連續控制任務的有效解決方案。與當前最先進的模型相比，我們提出的TD3PDSAN模型實現了更好的性能(獲得的獎勵)。

　　本文的主要貢獻可以歸納為以下幾個部分：

我們結合了空間編碼和群體編碼，其中輸入向量(狀態)中的每個模擬數字都被編碼為一組具有可學習高斯感受野的模擬數字。我們還測試了空間編碼和時間編碼的差異(例如，進一步將模擬數字編碼為脈沖序列)並得出結論，空間編碼相對於其他時間編碼更有效。
我們構建了一個具有動態神經元的多層脈沖actor網絡，包含用於復雜空間和時間信息表征的一階和高階神經元動態。
憑借在輸入和神經元尺度上的高效狀態表征，我們提出的TD3-PDSAN模型在OpenAI gym基准測試任務上實現了新的最先進性能，包括Ant-v3、HalfCheetah-v3、Walker2d-v3和Hopper-v3。

2. Related Work

　　最近，文獻圍繞在各種RL算法中引入SNN的主題發展起來[28, 29, 30]。一些算法[31]已將連續時序差分(TD)學習[32]擴展到連續時間運行的actor-critic網絡中脈沖神經元的情況。帶有脈沖神經元的強化學習是通過兩種不同的突觸可塑性實現的：隨機性和確定性[33]。這些方法通常基於獎勵調節的局部可塑性規則，這些規則在簡單的控制任務中表現良好，但由於優化能力有限，在復雜的機器人控制任務中通常會失敗。

　　一些方法直接將深度Q網絡(DQN)[6]轉換為SNN，並在具有離散動作空間的Atari游戲中獲得有競爭力的分數[34, 35]。然而，這些轉換后的SNN通常表現出低於具有相同結構的DNN的性能[36]。其他方法利用反向傳播(BP)算法通過用恆定微分變量替換非微分部分(近似BP)來訓練SNN[37, 38]。

　　然后一種混合學習框架被提出，通過近似BP算法進行訓練，用於移動機器人的無地圖導航[39]。它包含兩個獨立的網絡，其中具有基本LIF神經元的脈沖actor網絡從發放率編碼狀態推斷動作以表示策略，而深度critic網絡通過計算動作價值來評估actor。然而，發放率編碼狀態的表示能力有限，這可能會影響策略的最優性，並且需要大量的時間表征以獲得高性能，但代價是高推理延遲和能量成本[40, 24]。具有相同混合框架的群體編碼脈沖actor網絡(PopSAN)旨在增強狀態表征並在復雜的連續控制任務上實現比較性能[40]。具體來說，首先將具有較低數據維度的輸入狀態轉換為具有相對較高數據維度的每個值的刺激群體編碼。然后使用計算出的刺激編碼來生成神經元的脈沖序列。該方法主要在輸入尺度上提高了脈沖actor網絡的狀態表征能力，但同時降低了計算效率。

　　相比之下，基於混合學習框架，我們提出的PDSAN從兩個不同的尺度進一步提高了狀態表征能力：網絡外的輸入編碼和網絡內的神經元編碼。在輸入編碼尺度上，與PopSAN不同的是，在對輸入狀態應用群體編碼后，編碼后的模擬信息直接輸入網絡，具有較高的計算效率和表征能力。在神經元編碼尺度上，動態神經元具有膜電位的一階或更高階動態，以描述更復雜的神經元動態，而不是具有標准一階動態的LIF神經元。我們的模型在復雜的連續控制任務上實現了新的最先進的性能，並在輸入和神經元尺度上具有有效的狀態表征。此外，在SNN[41, 42, 43]中，還有其他關於有效編碼以更好地表示信息的值得注意的工作。

3. Background

　　本節將介紹一些基本的強化學習理論及其相關的數學背景。一些可能有助於更好地理解我們模型的重要算法也得到了介紹，包括深度Q網絡(DQN)[6]、深度確定性策略梯度算法(DDPG)[44]、雙延遲深度確定性策略梯度算法(TD3)[27]，以及混合學習框架[39, 40]。

3.1. Reinforcement learning foundation

3.2. DQNs

3.3. DDPG

3.4. TD3

3.5. Hybrid learning framework

　　與其深度網絡對應物一樣，混合學習框架中有兩個獨立的網絡[39, 40]，其中一個脈沖actor網絡代表策略，一個深度critic網絡評估actor。該框架中的兩個網絡可以使用近似BP聯合訓練。給定狀態s，脈沖actor網絡生成一個動作a，深度critic網絡估計相關的動作-價值Q(s, a) (或狀態-價值V(s))，進而優化脈沖actor網絡使用特定的DRL算法。脈沖actor網絡在功能上等同於深度actor網絡，可以與任何基於actor-critic的DRL算法集成[40]，例如DDPG、TD3等。

4. Methods

　　我們的TD3-PDSAN模型概述如圖1所示。我們的PDSAN是使用TD3算法與深度critic網絡(即多層全連接網絡)一起訓練的。在訓練期間，PDSAN從給定狀態s ∈ Rⁿ推斷出動作a ∈ R^m，並且深度critic網絡估計相關的動作-價值Q(s, a)以指導PDSAN學習更好的策略。經過訓練，學到的PDSAN可以應用到實際任務場景中，與環境進行交互。

　　對於有效的狀態表征，網絡外的輸入編碼和網絡內的神經元編碼從不同的尺度提出，不同狀態表征類型的概述如圖2所示。在PDSAN的輸入編碼模塊中，每個狀態的維度直接使用群體編碼進行編碼，無需額外的發放率編碼，然后饋入多層全連接SNN。SNN中的DN包含具有多達兩個平衡點的二階動態膜電位或具有多達一個平衡點的一階動態膜電位，以描述復雜的神經元動態。與[40]類似，平均發放率被群體解碼器解碼為相應的動作維度。

4.1. Input coding

　　在本節中，我們將介紹SNN中的各種類型的輸入編碼方法。對於狀態s ∈ Rⁿ，每個時間步驟t = 1, 2, ... , T₁，我們使用這些方法生成輸入I(t), ，其中T₁是SNN的時間窗口。

4.1.1. Uniform coding (uni)

4.1.2. Poisson coding (poi)

4.1.3. Deterministic coding (det)

4.1.4. Population coding (pop)

4.1.5. Population coding with rate

4.2. DNs

　　在本節中，我們首先介紹膜電位的常微分方程(ODE)為帶有一個最大平衡點的傳統一階神經元(例如LIF神經元)，然后定義改進的二階神經元。這些神經元都被認為是SNN中神經元動態基本描述的DN。以下各節還將介紹構建這些DN的過程。

4.2.1. The traditional 1st-order neurons

4.2.2. The designed 2nd-order neurons

4.2.3. The procedure for constructing the DNs

　　不同DN的構建主要基於動態神經元中一些關鍵參數的識別。例如，作為θ_a,b,c,d，這四個參數的每一個設置都描述了脈沖神經元的一個動態狀態。因此，對於SNN，三層神經元(每層包含數百個神經元)將從0到1的均勻分布的隨機參數初始化，如圖1所示。

　　θ_a,b,c,d的這些可學習參數與其他突觸權重W_i,j相結合，將使用TD3-PDSAN算法針對其中一項任務進行調整。學習之后，在大多數可學習變量到達穩定點的地方，這些參數將被繪制並用k-means方法聚類，以獲得θ_a,b,c,d參數的最優中心。這四個關鍵參數將進一步用作所有任務的所有動態神經元的統一配置。

4.3. The forward propagation of PDSAN and the learning procedure of TD3-PDSAN

　　PDSAN的前向傳播和TD3-PDSAN的學習過程分別顯示在算法1和算法2(在第7節(附錄)中)。

4.4. Training PDSAN with approximate BP

　　我們之前的工作討論了調整多層SNN的不同方法，包括近似BP[41]、均衡平衡[51, 52]、Hopfield-like調整[53]和受生物學啟發的可塑性規則[54]。在本文中，我們選擇近似BP以有效學習大量參數，同時保留這些參數之間的關鍵關系。近似BP的關鍵特征是將標准BP轉換為BP的分段版本，其中脈沖神經元的非微分部分可以用預先定義的梯度替換，如等式(23)所示。

　　在此，我們分析了PDSAN訓練過程中梯度的逐步流動。是計算出的動作的損失梯度，用於優化PDSAN的參數。每個輸出群體 j 的參數，j ∈ 1, ... , m，更新如下：

其中fr^(j)是平均發放率，並且是每個輸出群體的解碼參數。

　　SNN的參數使用近似BP更新，其中我們使用矩形函數方程來近似脈沖的梯度。

其中z是偽梯度，v是膜電壓，v_th是發放閾值，w是通過梯度的閾值窗口。

　　對於每個時間步驟t < T₁，我們描述了通過SNN的梯度流。在輸出群體層L，我們有：

其中sc是時間窗口T₁上輸出脈沖的總和，o^(t)(L)是第L層在時間 t 的輸出脈沖。

　　然后對於每一層，l = L降到1：

其中 c 是電流，d_c是電流衰減因子。

其中Y(u^(t)(l), v^(t)(l))的前向計算過程在算法1中。

　　當t = T₁時，通過收集從所有時間步驟反向傳播的梯度，可以計算每層 l 相對於SNN參數的損失梯度：

　　最后，我們計算了損失 J 相對於每個輸入群體 i 的參數的梯度，i ∈ 1, ... , n：

　　我們在每個T₁時間步驟之后更新PDSAN的所有參數。

5. Experiments

　　為了評估我們的模型，我們測量了它在來自OpenAI gym的四個連續控制任務上的性能(圖4)[26]。這些任務的詳細信息如表1所示。我們的實驗目標如下：

從任務中學習DN的動態參數並分析DN的膜電位動態(第5.2節)；
通過針對相應的深度actor網絡和PopSAN(第5.3節)達到我們方法的基准性能，證明PDSAN與TD3算法的集成；
演示群體編碼的(狀態)表征能力，並比較第4.1節(第5.4節)中涉及的各種輸入編碼方法的性能影響；
驗證類似任務最有可能共享類似參數的假設，即從任務中學到的DN的動態參數可以推廣到其他類似任務，並展示DN對LIF神經元的(狀態)表征能力(第5.5節);

5.1. Implement details

　　由於最近對可重復性的擔憂[55]，我們所有的實驗都報告了超過10個網絡初始化和gym模擬器的隨機種子。每個任務運行100萬步，每10k步評估一次，其中每個評估報告10個回合的平均獎勵，沒有探索噪聲，每個回合最多持續1000個執行步驟。

　　我們將我們的TD3-PDSAN(將PDSAN與TD3算法集成)與TD3(將深度actor網絡與TD3算法集成)、TD3-Pop(將群體編碼和深度actor網絡與TD3算法集成，它具有與TD3-PDSAN算法相同的參數量)和TD3-PopSAN(將PopSAN與TD3算法集成)，其中深度actor網絡和PopSAN的超參數配置與[40]中使用的相同。除非明確說明，PDSAN和PopSAN訓練使用與深度actor網絡相同的超參數。這些模型的超參數配置設置如下：

(1) TD3:

　　Actor網絡是(256, relu, 256, relu, action dim m，tanh)；Critic網絡是(256, relu, 256, relu, 1, linear)；Actor的學習率為10^-3； Critic的學習率為10^-3；獎勵折扣因子為γ = 0.99；軟目標更新因子為η = 0.005；回放緩存區的最大長度為T = 10⁶；高斯探索噪聲；噪聲裁剪為c = 0.5；迷你批大小為N = 100；策略延遲因子為d = 2。

(2) TD3-Pop:

　　Actor網絡是(Population Encoder, 256, relu, 256, relu, Population Decoder, action dim m, tanh)；單個狀態維度的輸入群體規模為p = 10；輸入編碼使用群體編碼(pop for all tasks)；其他配置與TD3相同。

(3) TD3-PopSAN:

　　PopSAN是(Population Encoder, 256, LIF, 256, LIF, Population Decoder, action dim m, tanh)，其中LIF神經元的電流衰減因子、電壓因子和發放閾值分別為0.5、0.75和0.5；單個狀態維度的輸入群體規模為p = 10；時間窗口為T₁ = 5；PopSAN的學習率為10^-4；輸入編碼使用pop-det (HalfCheetah-v3 & Ant-v3)和 pop-poi (Hopper-v3 & Walker2d-v3)。

(4) TD3-PDSAN:

　　使用PDSAN (Population Encoder, 256, DNs, 256, DNs, Population Decoder, action dim m, tanh)，其中MDN的電流衰減因子和發放閾值均為0.5；單個狀態維度的輸入群體規模為p = 10；時間窗口為T₁ = 5；PDSAN的學習率為10^-4；輸入編碼使用群體編碼(pop for all tasks)。

5.2. Learn and analyze DNs

　　我們選擇Ant-v3作為使用TD3-PDSAN預學習二階DN的基本源任務，然后使用BP(或對於SAN的近似BP)一起訓練所有參數(包括突觸權重和DN的動態參數)，如圖5(a)所示。

　　如圖5(b-c)所示，我們分別得到了圖5(b)中參數θ_a和θ_b和圖5(c)中參數θ_c和θ_d的聚類中心。為簡單起見，我們在k-means中設置k = 1。DN的最優動態參數為。然后將θ*進一步用作以下經驗中所有任務的所有動態神經元的統一配置。

　　不同顯性(例如，膜電位V和刺激輸入I)和隱性變量(例如，電阻項U和平衡點值)的神經元動態如圖6所示。

　　對於圖6(a)中的標准LIF神經元，膜電位與神經元輸入成正比。例如，對於值范圍從-1到1的類sin輸入，僅對於強正刺激，動態V被動態積分，直到達到發放閾值V_th，否則，相應地隨着弱正或負刺激而衰減。

　　與LIF神經元不同，DN表現出更高的復雜性，具有額外的隱式U，使得平衡點的動態變化不同。根據DN的定義，U的微小差異會導致V的大更新，尤其是當公式(19)中的參數b較小時。因此，DN不僅會顯示與正強刺激相似的發放模式，而且會在弱正和負刺激下表現出稀疏發放，而不是像LIF神經元那樣停止發放。該結果表明，與LIF神經元相比，DN具有更好的動態表征。

5.3. Benchmarking PDSAN against deep actor networks and PopSAN

　　我們將TD3-PDSAN與TD3、TD3-Pop和TD3-PopSAN的性能進行了比較。如圖7所示，我們的算法在所有測試任務中都取得了最優性能，這表明我們提出的算法對連續控制任務的有效性。另外，TD3-Pop在四項任務中的大部分(HalfCheetah-v3除外)相比TD3並沒有帶來任何明顯的優勢。圖8中的進一步分析表明，與沒有群體編碼的網絡相比，具有群體編碼的脈沖actor網絡實現了顯着的性能改進。因此，總而言之，群體編碼有助於脈沖actor網絡，但對深度actor網絡沒有明顯優勢。這可能是因為當群體編碼與深度actor網絡相結合時，"過度參數化"網絡可能難以在某些任務中訓練。

5.4. The comparison of various input coding methods

　　我們全面比較了各種輸入編碼方法對性能的影響，同時將神經元編碼方法固定到DN。如圖8所示，在所有四個任務上，單獨的發放率編碼方法(poi)的性能遠不如基於群體編碼的方法(pop-uni、pop-poi、pop-det、pop)。這可能是因為發放率編碼方法對單個神經元的表征能力有固有的限制。對於基於群體編碼的方法，pop在任務ANT-V3、HalfCheetah-v3和Walker2d-v3上取得了最優性能，在任務Hopper-v3上與其他基於群體編碼的方法相當。其他三種基於群體編碼的方法的性能因特定任務而異。直接使用群體編碼后狀態的模擬值作為網絡輸入似乎更有效，而無需進一步使用發放率編碼將模擬值編碼為脈沖序列。此外，我們評估了每個狀態維度具有不同輸入群體大小的pop：p = 2, 5, 10。圖11(在附錄7中)表明當減少輸入群體的大小時，Ant-v3任務的性能下降。

5.5. The representation capabilities of DNs

　　我們在所有四項任務上測試了構建的DN，並將它們與LIF神經元進行比較，同時保持輸入編碼方法與群體編碼(pop)一致。如圖9所示，DN在所有測試任務上都達到了比LIF神經元更好的性能，包括源任務(其中學習了DN的動態參數，即Ant-v3)和其他類似任務(即HalfCheetah-v3、Walker2d-v3和Hopper-v3)。這一結果最初驗證了類似任務很可能共享類似參數的假設，即從任務中學到的DN的動態參數可以推廣到其他類似任務。雖然沒有嚴格的理論證明，但我們做了很多實驗來進一步驗證這個假設。我們收集了一組空間數據集，包括 MNIST、Fashion-MNIST、NETtalk和Cifar10，以及時序數據集，包括TIDigits和TIMIT。我們從MNIST和TIDigits中學習了一組動態神經元，分別稱為空間動態神經元和時間動態神經元。然后我們測試了不同動態神經元在不同任務上的性能，結果總結在表2中。

　　我們可以從表2得出結論，空間動態神經元在空間任務上更強大，而時間動態神經元在時間任務上表現更好。這一結果與我們之前的假設一致，即當任務具有相似的屬性和背景時，從其中一項任務中學到的動態參數可以推廣到其他任務，並為其他任務帶來性能提升(例如，空間動態神經元應用於空間任務)。當任務屬於不同類型時，從其中一項任務中學到的動態參數會降低其他任務的性能(例如，應用於時間任務的空間動態神經元)。

　　對於LIF神經元和DN之間的性能差距，了解這些神經元的性質非常重要。與具有標准一階動態的LIF神經元不同，DN包含膜電位的一階和更高階動態，並表現出更高的復雜性，這有助於更強大的狀態表征。此外，我們還記錄了在圖10中的HalfCheetah-v3任務訓練后LIF神經元和DN的脈沖活動。可以觀察到，LIF神經元的脈沖更稀疏，而LIF神經元的脈沖計數或發放率比DN更小，這可能是造成它們性能差距的原因之一。

6. Conclusion

　　狀態表征在SNN和RL的研究中都很重要。本文將網絡輸入的群體編碼和編碼內部網絡的DN集成到一個高效的脈沖actor網絡(PDSAN)中，該網絡在某些基准Open-AI gym任務。

　　DN使神經元具有更高的計算復雜性，顯示出比簡單LIF神經元更復雜的膜電位動態。我們認為在神經元尺度上共謀的增加對網絡尺度的貢獻更大。這一特性也可能顯示出在節能計算方面的優勢。此外，PDSAN中DN產生的脈沖使神經元之間的計算成本低於對應的DNN。我們認為生物學的靈感將為我們提供更多關於更好算法的提示，這些算法具有更快的學習收斂性、更低的能量成本、更強的適應性、更高的魯棒性和更好的可解釋性。

7. Appendix

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons A solution to the learning dilemma for recurrent networks of spiking neurons Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor 論文筆記之：Dueling Network Architectures for Deep Reinforcement Learning Reinforcement Learning A Distributional Perspective on Reinforcement Learning Learning to Reinforcement Learn 在Matlab 上使用 Reinforcement learning （六）6.17 Neurons Networks convolutional neural network（cnn） RL^2: Fast Reinforcement Learning via Slow Reinforcement Learning