Liquid Time-constant Networks

本文轉載自查看原文 2021-03-27 11:35 714 論文調研

鄭重聲明：原文參見標題，如有侵權，請聯系作者，將會撤銷發布！

AAAI 2021

Abstract

　　我們介紹了一類新的時間連續循環神經網絡模型。我們不是通過隱式非線性來聲明學習系統的動態，而是構造了通過非線性互連門調節的線性一階動態系統的網絡。所得模型表示具有變化的(即液體)時間常數的動態系統，該動態系統耦合到其隱含狀態，其輸出由數值微分方程求解器計算。這些神經網絡表現出穩定且有界的行為，在神經常微分方程族中產生出色的表達性，並提高了時間序列預測任務的性能。為了演示這些特性，我們首先采用一種理論方法來找到它們的動態范圍，並通過在潛在軌跡空間中的軌跡長度度量來計算它們的表達能力。然后，我們進行一系列時間序列預測實驗，以證明與傳統RNN和現代RNN相比，液態時間常數網絡(LTC)的近似能力。¹

¹代碼和數據可在以下位置獲得：https://github.com/raminmh/liquid_time_constant_networks

1 Introduction

　　由常微分方程(ODE)確定的具有連續時間隱含狀態的循環神經網絡是一種有效的算法，可用於建模廣泛用於醫療，工業和商業環境的時間序列數據。神經ODE的狀態，由該方程的解定義(Chen et al. 2018)：dx(t)/dt = f(x(t), I(t), t, θ)，並使用由θ參數化的神經網絡f。然后可以使用數值ODE求解器計算狀態，並通過執行反向模式自動微分(Rumelhart, Hinton, and Williams 1986)，通過求解器的梯度下降(Lechner et al. 2019)或通過將求解器視為黑盒(Chen et al. 2018; Dupont, Doucet, and Teh 2019; Gholami, Keutzer, and Biros 2019)並應用伴隨方法(Pontryagin 2018)。開放的問題是：神經ODE在目前的形式中表現力如何，我們能否改善其結構以實現更豐富的表示學習和表現力？

　　與其直接通過神經網絡 f 定義隱含狀態的導數，不如通過以下公式確定更穩定的連續時間循環神經網絡(CT-RNN)(Funahashi and Nakamura 1993)：，其中項協助自治系統達到具有時間常數τ的平衡狀態。x(t)是隱含狀態，I(t)是輸入，t表示時間，f由θ參數化。

　　我們提出一個替代公式：讓網絡的隱含狀態流由以下形式的線性ODE系統聲明：dx(t)/dt = -x(t)/τ + S(t)，並令表示由參數θ和A決定的非線性度，S(t) = f(x(t), I(t), t, θ)(A - x(t))。在S插入到隱含狀態方程中，我們得到：

　　等式1展示了一個新穎的時間連續RNN實例，它具有以下功能和優點：

液體時間常數。神經網絡 f 不僅確定隱含狀態x(t)的導數，而且還用作依賴於輸入的可變時間常數(τ_sys = τ / (1 + τ f(x(t), I(t), t, θ))用於學習系統(時間常數是表征ODE的速度和耦合靈敏度的參數)。此屬性使隱含狀態的單個元素可以識別到達每個時間點的輸入特征的專用動態系統。我們將這些模型稱為液態時間常數循環神經網絡(LTC)。LTC可以通過任意選擇ODE求解器來實現。在第2節中，我們介紹了一種實用的固定步長ODE求解器，它同時享受隱式Euler的穩定性和顯式Euler方法的計算效率。

LTC的反向模式自動微分。LTC實現可微分的計算圖。類似於神經ODE，可以通過基於梯度的優化算法的變量來訓練它們。我們通過使用朴素時序反向傳播算法來優化LTC而不是基於伴隨的優化方法(Pontryagin 2018)，以在反向傳遞期間以數值精度為代價來交換內存。在第3節中，我們會徹底激發這種選擇。

有界的動態-穩定性。在第4節中，我們顯示LTC的狀態和時間常數被限制在一個有限范圍內。此屬性確保了輸出動態的穩定性，當系統的輸入不斷增加時，此屬性是理想的。

卓越的表現力。在第5節中，我們在理論上和定量上分析了LTC的近似能力。我們采用函數分析方法來顯示LTC的普遍性。然后，與其他時間連續模型相比，我們更深入地研究了它們的表達能力。我們通過在潛在軌跡表示中測量網絡激活的軌跡長度來執行此操作。引入軌跡長度作為前饋深層神經網絡表達能力的量度(Raghu et al. 2017)。我們將這些標准擴展到連續時間循環模型系列。

時間序列建模。在第6節中，我們進行了一系列的11個時間序列預測實驗，並將現代RNN的性能與時間連續模型進行了比較。在LTC實現的大多數情況下，我們觀察到了性能的改善。

為什么要這樣具體表述？選擇這種特殊表示法有兩個主要依據：

I）LTC模型與小物種中神經動態的計算模型松散地聯系在一起，並與突觸傳遞機制結合在一起(Hasani et al. 2020)。非脈沖神經元電位v(t)的動態可以寫成線性ODE的形式(Lapicque 1907; Koch and Segev 1998)：dv/dt = g_l v(t) + S(t)，其中S是突觸前來源向細胞的所有突觸輸入的總和，而g_l是泄漏電導。

　　所有進入細胞的突觸電流可以通過以下非線性在穩態下近似(Koch and Segev 1998; Wicks, Roehrig, and Rankin 1996)：S(t) = f(v(t), I(t)), (A - v(t))，其中f(·)是sigmoidal非線性，具體取決於所有神經元的狀態，當前神經元前突觸v(t)以及該細胞的外部輸入I(t)。通過插入這兩個方程，我們得到了一個類似於公式1的公式，LTC受此基礎啟發。
II）公式1可能類似於著名的動態因果模型(DCM)(Friston, Harrison and Penny 2003)，其雙線性動態系統近似值(Penny, Ghahramani, and Friston 2005)。DCM是通過對動力系統dx/dt = F(x(t), I(t), θ)進行二階近似(雙線性)來制定的，其格式如下(Friston, Harrison, and Penny 2003)：dx/dt = (A + I(t)B)x(t) + C I(t)，其中A = dF/dx，B = dF²/(dx(t)dI(t))，C = dF/dI(t)。DCM和雙線性動態系統在學習捕獲復雜的fMRI時間序列信號方面顯示出了希望。LTC作為連續時間(CT)模型的變體而引入，受到生物學的寬松啟發，在對時間序列進行建模時有着出色的表達性，穩定性和性能。

2 LTCs forward-pass by a fused ODE solvers

　　從理論上講，由於LTC語義的非線性，解公式1是不平凡的。但是，ODE系統的狀態在任何時間點T都可以通過數值ODE求解器來計算，該求解器可以模擬從軌跡x(0)到x(T)的系統。ODE求解器將連續的仿真間隔[0, T]分開到離散時間，[t₀, t₁, ... , t_n]。作為結果，求解器的步驟僅涉及將神經元狀態從t_i更新為t_i+1。

　　LTC的ODE實現了一個剛性方程組(Press et al. 2007)。當使用基於RungeKutta (RK)的積分器進行仿真時，這種類型的ODE需要指數級的離散化步驟。因此，基於RK的ODE求解器，例如Dormand-Prince (torchdiffeq中的默認值(Chen et al. 2018))不適用於LTC。因此，我們設計了一個新的ODE求解器，它將顯式和隱式Euler方法融合在一起(Press et al. 2007)。離散化方法的這種選擇導致隱式更新方程的穩定性。為此，Fused求解器通過以下方法以數值形式展開給定動態系統dx/dt = f(x)的形式：

　　特別地，我們僅用x(t_i+1)替換在 f 中線性出現的x(t_i)。作為結果，公式2可以求解x(t_i+1)。將Fused求解器應用於LTC表征，並對其求解x(t + Δt)，我們得到：

　　公式3為LTC網絡計算一個更新狀態。相應地，算法1顯示了在給定參數空間的情況下如何實現LTC網絡。假設 f 具有任意的激活函數(例如，tanh非線性f = tanh(γ_rx + γI + μ))。對於長度為T的輸入序列，算法的計算復雜度為O(L x T)，其中L是離散化步驟的數量。直觀地講，具有N個神經元的LTC網絡的密集版本和具有N個細胞的長短期記憶(LSTM)網絡的密集版本(Hochreiter and Schmidhuber 1997)將具有相同的復雜性。

3 Training LTC networks by BPTT

　　通過應用伴隨靈敏度方法執行反向模式自動微分，建議通過神經網絡 f 中每一層的常數記憶成本來訓練神經ODE(Chen et al. 2018)。然而，伴隨方法在反向模式下運行時會出現數值誤差。出現這種現象的原因是伴隨方法忘記了前向時間計算軌跡，而前向時間計算軌跡在業內被重復表示(Gholami, Keutzer, and Biros 2019; Zhuang et al. 2020)。

　　相反，通過時間的直接反向傳播(BPTT)在反向模式積分過程中交換內存以准確恢復前向傳播(Zhuang et al. 2020)。因此，我們着手設計一個朴素BPTT算法，以通過求解器保持高度精確的后向傳遞積分。為此，一個給定的ODE解算器的輸出(一個神經狀態向量)可以被遞歸地折疊以建立一個RNN，然后應用算法2中描述的學習算法來訓練系統。算法2使用普通的隨機梯度下降(SGD)。我們可以用SGD的一個更高性能的變體來代替它，比如Adam (Kingma and Ba 2014)，我們在實驗中使用了它。

復雜性。表1總結了與伴隨方法相比，我們的朴素BPTT算法的復雜性。我們在前向和后向積分軌跡上都達到了很高的精度，計算復雜度相似，內存開銷很大。

4 Bounds on τ and neural state of LTCs

　　LTC由ODE表示，該ODE會根據輸入改變其時間常數。因此，重要的是要了解LTC對於無限制的到達輸入是否保持穩定(Hasani et al. 2019; Lechner et al. 2020b)。在本節中，我們證明LTC神經元的時間常數和狀態被限制在有限范圍內，如定理1和定理2所述。

　　該證明在附錄中提供。它是基於有界且單調增加的sigmoidal非線性神經網絡 f 構造的，並在LTC網絡動態中進行了替換。穩定的變化時間常數可以顯著增強這種形式的時間連續RNN的表達能力，正如我們在第5節中更正式地發現的那樣。

　　證明在附錄中給出。它是根據LTC方程的分隔符號以及通過明確的Euler離散化對ODE模型的近似構造而成的。定理2闡明了LTC的理想特性，即狀態穩定性，保證了LTC的輸出即使輸入增加到無窮也不會爆炸。接下來，我們將與時間連續模型(例如CT-RNN和神經常微分方程)系列相比，討論LTC的表達能力(Chen et al. 2018; Rubanova, Chen, and Duvenaud 2019)。

5 On the expressive power of LTCs

　　理解神經網絡的結構特性如何確定它們可以計算的功能稱為表達性問題。測量神經網絡表達能力的早期嘗試包括基於功能分析的理論研究。他們表明，具有三層的神經網絡可以以任何精度近似任何連續映射的有限集。這就是所謂的通用近似定理(Hornik, Stinchcombe, and White 1989; Funahashi 1989; Cybenko 1989)。普遍性擴展到標准RNN (Funahashi, 1989)，甚至連續時間RNN(Funahashi and Nakamura, 1993)。通過仔細考慮，我們還可以證明LTC也是通用近似器。

　　證明的主要思想是定義一個n維動態系統並將其放入一個高維系統。第二個系統是LTC。LTC的普遍性證明與CT-RNN的證明的根本區別(Funahashi and Nakamura, 1993)在於兩種系統的語義上的區別，其中LTC網絡在其時間常數模塊中包含一個非線性輸入相關項，這使得證明的部分不平凡。

　　通用近似定理廣泛地探索了神經網絡模型的表達能力。但是，該定理沒有為我們提供關於不同神經網絡結構之間的分離位置的基礎度量。因此，需要更嚴格的表達量度來比較模型，尤其是比較那些專門用於時空數據處理的網絡，例如LTC。據推測，在定義靜態深度學習模型的表達量度方面取得的進展(Pascanu, Montufar, and Bengio 2013; Montufar et al. 2014; Eldan amd Shamir 2016; Poole et al. 2016; Raghu et al. 2017)可能可以幫助衡量時間連續模型在理論上和定量上的表現力，我們將在下一部分中進行探討。

5.1 Measuring expressivity by trajectory length

　　衡量表達能力時必須考慮到給定網絡的容量(深度，寬度，類型和權重配置)，學習系統可以計算出多少復雜程度。靜態深層網絡的統一表達量度是(Raghu et al. 2017)。在這種情況下，人們會評估深度模型如何逐步將給定的輸入軌跡(例如，圓形二維輸入)轉換為更復雜的模式。

　　然后我們可以對得到的網絡激活進行主成分分析(PCA)。隨后，我們在二維隱空間中測量輸出軌跡的長度，以揭示其相對復雜性(見圖1)。軌跡長度定義為給定軌跡I(t)的弧長(例如，二維空間中的圓)(Raghu et al. 2017)：。通過建立軌跡長度增長的下限，可以在淺層和深層結構的網絡之間設置障礙，而不考慮對網絡權重配置的任何假設(Raghu et al. 2017)，這與許多其他表現力度量不同(Pascanu, Montufar, and Bengio 2013; Montufar et al. 2014; Serra, Tjandraatmadja, and Ramalingam, 2017; Gabrié et al. 2018; Hanin and Rolnick, 2018、2019; Lee, Alvarez-Melis, and Jaakkola, 2019)。我們將靜態網絡的軌跡空間分析擴展到時間連續(TC)模型，並對軌跡長度下界以比較模型的表達能力。為此，我們設計了具有共享 f 的神經ODE、CT-RNN和LTC的實例。這些網絡由權重和偏差初始化。然后，我們通過使用不同類型的ODE解算器對任意權重分布執行前向傳播模擬，同時將網絡暴露於循環輸入軌跡I(t) = {I₁(t) = sin(t), I₂(t) = cos(t)} (對於t ∈ [0, 2π])。通過觀察隱含層激活的前兩個主成分(平均方差超過80%)，我們觀察到LTC的持續更復雜的軌跡。圖2給出了我們的經驗觀察一瞥。所有的網絡都由一個可變步長的Dormand-Prince顯式Runge-Kutta(4,5)求解器(Dormand-Prince 1980)實現。我們有以下觀察結果：I）在硬tanh和ReLU激活的情況下，神經ODE和CT-RNN的軌跡長度呈指數增長(圖2A)，其潛伏期的形狀不變，而與它們的權重分布無關。II）LTC在硬tanh和ReLU設計時，軌跡長度的增長速度較慢，並且妥協於實現很大的復雜度(圖2A、2C和2E)。III）除了由硬tanh和ReLU激活建立的多層時間連續模型外，在所有情況下，我們都觀察到LTC網絡的更長和更復雜的潛在空間行為(圖2B至2E)。IV）與靜態深度網絡(圖1)不同，我們發現在由tanh和sigmoid實現的多層連續時間網絡中，軌跡長度不隨深度增長(圖2D)。V）最后，我們觀察到TC模型中的軌跡長度隨模型的激活、權重和偏差分布、方差、寬度和深度而變化。我們在圖3中更系統地展示了這一點。VI）軌跡長度隨網絡寬度線性增長(圖3B——注意對數標度Yaxis中曲線的對數增長)。VII）隨着方差的增加，增長速度快得多(圖3C)。VIII）軌跡長度不願意選擇ODE解算器(圖3A)。IX）激活函數使TC系統探索的復雜模式多樣化，ReLU和硬tanh網絡顯示LTC的更高復雜性。一個關鍵的原因是每個層的細胞之間存在反復的鏈接。計算深度定義(L)。對於時間連續網絡中的一個隱含層 f，L是解算器為每個輸入樣本所采取的平均集成步驟數。注意，對於n層的 f，我們將總深度定義為n x L。這些觀測結果使我們為連續時間網絡的軌跡長度的增長制定了下限。

　　該證明在附錄中提供。對於具有分段線性激活的深層網絡建立的軌跡長度范圍，它遵循與(Raghu et al. 2017)類似的步驟，並由於連續時間設置而需要仔細考慮。構造證明，以便我們在主成分域中的d + 1層中的隱含狀態梯度范數與右手范數的期望之間建立神經ODE和CT-RNN的微分方程的另一側，然后回滾遞歸以到達輸入。

　　注意，為了降低問題的復雜性，我們僅對隱含狀態圖像的正交分量，因此我們在定理的陳述中對輸入I(t)進行了假設(Raghu et al. 2017)。接下來，我們找到LTC網絡的下限。

　　該證明在附錄中提供。一個粗略的輪廓：我們分別構造隱含狀態梯度的范數和LTC右側分量之間的遞歸，這些遞歸逐步建立邊界。

5.2 Discussion of the theoretical bounds

　　I）正如預期的那樣，神經ODE的邊界與n層靜態深層網絡的邊界非常相似，但與求解器步數L的指數相關性除外。II）根據指數的基，與神經ODE相比，CT-RNN的邊界表明其軌跡長度更短。該結果始終與我們在圖2和3中顯示的實驗相匹配。III）圖2B和圖3C顯示了LTC軌跡長度的增長快於線性，這是權重分布方差的函數。LTC在公式9中顯示的下限確認了這一點。IV）LTC的下限還描繪了軌跡長度隨寬度k的線性增長，這驗證了3B中提出的結果。V）給定表2中模型L對硬tanh激活的計算深度，在第5節的實驗中，神經ODE，CT-RNN和LTC的計算下限證明了LTC網絡的軌跡長度更長。在一組現實生活中的時間序列預測任務中評估LTC的表達能力。

6 Experimental Evaluation

6.1 Time series predictions. 在一系列不同的現實生活中受監督的學習任務中，我們針對最先進的離散RNN，LSTM (Hochreiter and Schmidhuber 1997)，CT-RNN (ODE-RNN) (Funahashi and Nakamura 1993; Rubanova, Chen, and Duvenaud 2019)，連續時間門控循環單元(CT-GRU)(Mozer, Kazakov, and Lindsey 2017)，以及由四階Runge-Kutta求解器構造的神經ODE，如(Chen et al. 2018)所述評估了所提出的ODE求解器實現的LTC的性能。結果總結在表3中。實驗裝置在附錄中提供。在七個實驗中有四個實驗中，與其他RNN模型相比，我們觀察到LTC的性能提高了5％至70％，而在其他三個實驗中，性能卻相當(參見表3)。

6.2 Person activity dataset. 我們在兩個不同的框架中使用(Rubanova, Chen, and Duvenaud 2019)中描述的"人類活動"數據集。數據集由6554個人類活動序列(例如躺着，走路，坐着)組成，周期為211毫秒。我們設計了兩個實驗框架來評估模型的性能。在第一設置中，基准是之前描述的模型，輸入表示形式保持不變(詳細信息在附錄中)。LTC的性能優於所有模型，尤其是CTRNN和神經ODE，如表4所示。請注意，CT-RNN結構等效於(Rubanova, Chen, and Duvenaud 2019)中描述的ODE-RNN，其區別在於具有狀態阻尼因子τ。

　　在第二設置中，我們精心設置了實驗以匹配(Rubanova, Chen, and Duvenaud 2019)所做的修改(請參見補充材料)，以在LTC和(Rubanova, Chen, and Duvenaud 2019)中討論的更多樣化的RNN變體集之間進行公平的比較。與其他型號相比，LTC具有出眾的性能和較高的利潤率。結果總結在表5中。

6.3 Half-Cheetah kinematic modeling. 我們打算評估連續時間模型捕獲物理動態的能力。為此，我們收集了由MuJoCo物理引擎(Todorov, Erez, and Tassa 2012)生成的針對HalfCheetah-v2 gym環境的預訓練控制器的25個部署(Brockman et al. 2016)。然后的任務是以自回歸方式擬合觀察空間的時間序列(圖4)。為了增加難度，我們用隨機動作覆蓋了5％的動作。測試結果列在表6中，其根源在於LTC與其他模型相比的優越性。

7 Related Works

Time-continuous models. TC網絡已變得空前流行。這是由於多項優勢的體現，例如自適應計算，更好的連續時間序列建模，內存和參數效率(Chen et al. 2018)。許多替代方法試圖改善和穩定伴隨方法(Gholami, Keutzer, and Biros 2019)，在特定情況下使用神經ODE (Rubanova, Chen, and Duvenaud 2019; Lechner et al. 2019)並對它們進行表征更好(Dupont, Doucet, and Teh 2019; Durkan et al. 2019; Jia and Benson 2019; Hanshu et al. 2020; Holl, Koltun, and Thuerey 2020; Quaglino et al. 2020)。在這項工作中，我們研究了神經ODE的表達能力，並提出了一個新的ODE模型以提高其表達能力和性能。

Measures of expressivity. 大量當前工作試圖找到問題的答案，例如為什么更深層的網絡和特定的結構表現良好，以及淺層網絡和深層網絡的近似能力之間的界限在哪里？在這種情況下(Montufar et al. 2014)和(Pascanu, Montufar, and Bengio 2013)建議對神經網絡的線性區域數量進行計數以衡量表達力(Eldan and Shamir 2016)表明存在一個較小的網絡無法產生的徑向函數類，(Poole et al. 2016)研究了瞬態混沌對神經網絡的指數表達能力。

　　這些方法引人注目；但是，它們受限於給定網絡的特定權重配置，以降低與(Serra, Tjandraatmadja, and Ramalingam 2017; Gabrié et al. 2018; Hanin and Rolnick 2018, 2019; Lee, Alvarez-Melis, and Jaakkola 2019)。(Raghu et al. 2017)引入了一個相互關聯的概念，即通過軌跡長度量化給定靜態網絡的表達能力，我們將其表達能力分析擴展到時間連續網絡，並為軌跡長度的增長提供了下界，並稱其具有出色的逼近能力的LTC。

8 Conclusions, Scope and Limitations

　　我們研究了通過線性ODE神經元和特殊的非線性權重組合獲得的新型時間連續神經網絡模型。我們證明了它們可以通過任意變量和固定步長的ODE求解器有效地實現，並且可以通過時序反向傳播進行訓練。與標准和現代深度學習模型相比，我們在有監督的學習時間序列預測任務中展示了其有限而穩定的動態性，卓越的表現力和替代性能。

Long-term dependencies. 與時間連續模型的許多變體相似，當通過梯度下降訓練時，LTC會表現出梯度消失現象(Pascanu, Mikolov, and Bengio 2013; Lechner and Hasani 2020)。盡管該模型顯示了在各種時間序列預測任務上的希望，但對於以當前格式學習長期依存關系，它們並不是顯而易見的選擇。

Choice of ODE solver. 時間連續模型的性能在很大程度上依賴於其數值實現方法(Hasani 2020)。雖然LTC在使用先進的可變步長求解器和此處介紹的Fused固定步長求解器時表現良好，但是當使用現成的顯式Euler方法時，其性能會受到很大影響。

Time and Memory. 與更復雜的模型(例如LTC)相比，神經ODE的速度非常快。但是，它們缺乏表現力。我們以當前格式提出的模型大大提高了TC模型的表達能力，但代價是時間和內存復雜性的增加，這些都必須在將來進行研究。

Causality. 用時間連續微分方程語義描述的模型固有地具有因果結構(Schölkopf 2019)，特別是配備有循環機制以將過去的經驗映射到下一步預測的模型。研究高性能循環模型(如LTC)的因果關系將是一個令人興奮的未來研究方向，因為它們的語義類似於具有雙線性動態系統近似(Penny，Ghahramani, and Friston 2005)的動態因果模型(Friston, Harrison, and Penny 2003)。因此，自然的應用領域將是連續時間觀察和動作空間中的機器人控制，在這些空間中，因果結構(如LTC)可以幫助改善推理(Lechner et al. 2020a)。

Supplementary Materials

S1 Proof of Theorem 1