圖神經網絡解偏微分方程系列(一)
1. 標題和概述
Learning continuous-time PDEs from sparse(稀疏) data with graph neural networks
使用圖神經網絡從稀疏數據中學習連續時間偏微分方程
這篇文章是使用圖神經網絡從稀疏數據中學習連續時間偏微分方程,發表在ICLR,ICLR是深度學習的頂級會議。
文章提出的模型主要創新點是允許任意空間和時間離散化,也就是說在求解偏微分划分網格時,網格可以是不均勻的,由於所求解的控制方程是未知的,在表示控制方程時,作者使用了消息傳遞的圖神經網絡進行參數化。與之前的基於機器學習的PDE方法(數據驅動)比較:PINN雖然求得的方程的解,在時間上是連續的,但是它求的方程是已知的,並且在空間鄰域和邊界條件都不是自由的。PDE-Net雖然需要學習的方程是未知的,但是求得的解不是連續時間的,在空間鄰域和邊界條件都不是自由的。這篇文章提出的方法能同時保證通過數據學習未知的偏微分方程,解在時間上是連續的,並且空間鄰域和邊界條件都是自由的。
文章所用的模型是基於直線法,把偏微分方程化成常微分方程組,常微分方程組右邊的項用消息傳遞的圖神經網絡來表示,在構造圖結構時,進行了Delaunay三角剖分,Delaunay三角剖分具有空圓特性和使每個三角形最小角度最大化。
2. 文章鏈接
Learning continuous-time PDEs from sparse data with graph neural networks
3. 作者
Valerii Iakovlev, Markus Heinonen & Harri Lahdesmaki
4. 出版雜志及日期
Published as a conference paper at ICLR 2021
5. 摘要
許多動力系統的行為遵循復雜的,但仍然未知的偏微分方程。雖然已經提出了幾種機器學習方法來直接從數據中學習偏微分方程,但以前的方法僅限於離散時間近似,或者使觀測到達規則網格的有限假設。我們提出了一種廣義連續時間微分動力學模型,該模型的控制方程是通過消息傳遞的圖神經網絡參數化的。該模型允許任意的空間和時間離散化,消除了對觀測點位置和觀測間隔的限制。模型采用連續時間伴隨方法(continuous-time adjoint method)進行訓練,實現了高效的神經PDE推理。我們展示了該模型處理非結構化網格、任意時間步長和噪聲觀測的能力。我們將我們的方法與一些知名物理系統的現有方法進行了比較,這些物理系統包括一階和高階偏微分方程,具有最先進的預測性能。
6. 總結
我們提出了一個動力系統的連續時間模型,其行為受偏微分方程控制。該模型能准確地恢復系統的動態,即使觀測點稀疏且記錄的時間間隔不規律。與離散時間模型的比較揭示了連續時間模型對於觀測之間時間間隔較大的數據集的優勢,這在實際應用中是典型的,因為在實際應用中,測量可能是乏味的或昂貴的,或兩者兼有。用直線法(method of lines)離散坐標域提供了一個通用的建模框架,在該框架中,可以使用任意的替代函數來逼近。該模型的連續時間特性使得從歐拉方法(Euler method)到高度精確的自適應方法(adaptive methods)的各種時間積分器(time integrators)得以使用。這允許根據數據的結構優化代理函數(surrogate function)和時間集成方案(time integration scheme)的選擇。
7. 貢獻
在本文中,我們從稀疏數據出發提出了學習一個自由形式、連續時間、先驗完全未知的PDE模型F,稀疏數據被測量使用圖神經網絡在坐標鄰域的任意時間點和位置上。我們的貢獻是:
- 我們引進了PDE驅動系統(PDE-driven systems)的連續時間表示和學習
- 我們提出了使用帶消息傳遞神經網絡(message passing neural networks)的直線方法(method of lines)來有效的表示域結構(domain structure)的圖
- 我們在具有不規則數據的真實PDE系統上取得了最先進的學習性能,並且我們的模型對數據稀疏性具有高度的魯棒性
可以在這個github儲存庫中找到用於復制實驗的腳本和數據。
8. 實驗
我們評估我們的模型在學習已知物理系統動力學方面的表現。我們比較了最先進的可競爭的方法,並開始進行消融研究(ablation studies)以衡量我們模型的性能如何依賴於測量網格大小、觀測間隔、不規則采樣、數據量和噪聲量。
8.1 對流擴散消融研究(convection-diffusion ablation studies)
對流擴散方程是一個偏微分方程,可以用來模擬與物理系統中粒子、能量和其他物理量的傳遞有關的各種物理現象。這種轉移是由對流和擴散兩個過程引起的。對流-擴散方程的定義為
其中是一些興趣量的集中(the concentration of some quantity of interest),利用觀測狀態
和估計狀態
之間的相對誤差來評估模型的預測質量:
在接下來的所有實驗中,除非另有說明,訓練數據包含時間間隔[0,0.2]秒的24個模擬,測試數據包含時間間隔[0,0.6]秒的50個模擬。從高保真仿真中隨機下采樣數據,因此所有的訓練和測試仿真都有不同節點位置,而節點數量保持不變。圖14顯示了來自訓練和測試集的示例,
不同網格大小。 這個實驗測試了我們的模型從觀測點不同密度的數據學習能力。時間步長被設置為0.02秒,導致每個模型有11個訓練時間點。觀測點的數目(和GNN中的節點)被設置為3000,1500,750。結果網格顯示在圖2b的第一列中。圖2顯示了相關的測試誤差和模型的預測。
模型的性能隨着網格中節點數目減少而降低。盡管如此,即使使用最小的網格,模型也能夠學習到一個合理准確的系統動力學近似,並在訓練時間間隔之外進行推廣。
不同的測試時間間隔。 如下面的實驗所示,具有常數時間步長的模型對觀測間隔的長度是敏感的。當時間步長較小時,該模型表現出良好的性能,但是當時間步長增大時,該模型無法推廣。這個實驗顯示了我們的模型在觀測時間間隔相對較長的情況下從數據中學習的能力。
我們使用11、4和2個均勻的時間點進行訓練。節點的設置為3000。圖3顯示了相對測試誤差和模型的預測。該模型能恢復系統的連續時間動力學,即使在每個仿真中用四個時間點訓練。增加觀察頻率並不會顯著提高性能。圖中顯示了一個帶有四個時間點的訓練模型示意。
不規則的時間步長。 用於訓練的觀察結果可能不是用固定的時間步長記錄的。這可能會給基於這種假設構建的模型帶來麻煩。這個實驗測試了我們模型在隨機時間點學習被觀測到數據的能力。
模型在兩個時間網格上訓練。第一個網格具有恆定的時間步長0.02秒。第二個網格與第一個網格相同,但每個時間點都受到噪聲的干擾。這給出了一個不規則時間步長設置0.01秒。節點數目設置為3000。相對測設誤差如圖4所示,在這兩種情況下,模型實現了相似的性能。這證明了我們模型的連續時間特性,因為訓練和預測不像大多數其他方法那樣局限於均勻間隔的時間網格。沒有一個以前的方法學習自由形式(即參數化神經網絡)的PDE可以使用隨時間不規則采樣的數據進行訓練。
不同的數據量。 在本實驗中,對模型進行了1,5,10,24次模擬訓練。測試數據包含50個模擬。節點數目設置為3000。相對測試誤差如圖5所示。模型的性能隨着訓練數據量的增加而提高。值得注意的是,盡管使用了更多的數據,相對誤差並不收斂到零。
不同數量的附加噪聲。 我們應用附加噪聲訓練數據,其中
設置為0.02和0.04,而觀測狀態的最大量值為1。時間步長設置為0.01秒。節點數設置為3000。噪聲只添加到訓練數據中。相關測設誤差如圖6所示。模型的性能隨着
的增大而降低,但
時模型仍保持較高的性能。
8.2 基准方法比較(Banchmark method conparison)
將本文提出的方法與文獻中提出的兩個模型進行比較:PDE-Net (Long et al., 2017)和DPGN(Seo & LIu, 2019a)。PDE-Net是基於卷積神經網絡,采用類似歐拉方法的不變時間步長方案(constant time-stepping scheme)。DPGN是基於圖神經網絡,實現了時間步長作為潛在空間的進化圖(an evolution map in the latent space)。
我們使用(long et al., 2017)等人提供的PDE-Net實現,除此之外,我們傳遞濾波值(filter value)通過一個MLP(多層感知機),MLP被組成由2個隱藏層,每層60個神經元,非線性激活函數為tanh,這有助於提高模型的穩定性和性能。我們使用無矩約束(without moment constraints)和
的濾波器,最大偏微分方程的階數分別為4和2。
的數量設置為訓練數據中的時間步長。我們對DPGN的實現遵循從(Seo & Liu, 2019)其潛擴散系數(latent diffusivity)
。所有模型的參數數接近20K。
訓練數據包含24個模擬在時間間隔[0,0.2]秒,遵循的時間步長如下:0.01,0.02和0.04。測試數據包含50個在時間間隔[0,0.6]秒上的模擬,遵循的時間步長相同。由於PDE-Net不能應用於任意的空間網格,數據生成在的規則網格上。每個時間步數分別訓練不同的模型。模型的性能是用相對測試誤差隨時間平均的平均值來評估的。
模型的平均相對測試誤差如圖7所示。由圖可知離散時間模型的性能對時間步長具有很強的依賴性,而連續時間模型的性能能保持在同一水平。在最小的時間步長下,PDE-Net 濾波器的性能優於其他模型,這是因為PDE-Net能夠訪問更大的節點領域,使得模型能夠做出更准確的預測。然而,較大的濾波器尺寸不能提高穩定性。
我們注意到一些離散時間模型,例如,DPGN,可以修改為將時間步長作為其輸入。與這種類型的模型進行比較是多余的,因為圖7已經演示了這種模型的最佳情況下的性能(當使用恆定時間步長進行訓練和測試時)。
相對位置信息的重要性。我們在不同節點數量的網格上使用或不使用相對節點位置(relative node position)作為邊緣特征編碼(encoded as the edge features)的MPNN來測試模型。節點數量越少,相鄰節點之間的距離變化(distance variability)越高(圖12),這應該會增加模型精度對相對空間信息的依賴。通過從模型中刪除空間信息,我們恢復了GNODE。模型在熱量和對流擴散方程上進行了測試。實驗的完整描述在附錄D中,結果如圖8所示。
令人驚訝的是,GNODE在純擴散熱方程上顯示了良好的結果。盡管如此,GNODE顯著的性能明顯不同於我們的模型,包括空間信息。而且,當節點數量從100%減少到50%時,性能差異幾乎翻倍。
當將GNODE應用於對流擴散方程時,無論節點數量如何,GNODE都無法學習動力學。這可以用對流項的存在來解釋,對流項將場向特定方向輸送,因此,位置信息對於准確預測場的變化尤為重要。
8.3 其他動力系統(other dynamical systems)
該模型在另外兩個動力系統上進行了測試,以評估其處理更廣泛問題的能力。為此,我們選擇了熱方程(heat equation)和Burgers' 方程。熱方程是最簡單的偏微分方程之一,而由於非線性對流項的存在,Burgers方法比對流擴散方程更為復雜。隨着問題難度的增加,我們可以在保持模型參數數量不變的情況下,跟蹤從簡單到復雜的動態過程中模型性能的變化。
熱方程。 熱方程描述了擴散系統的行為。方程定義為,其中u為溫度場。圖9顯示了一個隨機測試情況的相對誤差和模型預測。熱方程比對流擴散方程描述的動力學更簡單,這使得模型可以獲得略小的測試誤差。
Burgers' 方程。 Burgers方程是由兩個耦合的非線性方程組(coupled nonlinear PDEs)組成的方程組。它描述了具有非線性傳播效應(nonlinear propagation effects)的耗散系統(dissipative systems)的行為。方程定義為,其中
是速度向量場。為了可視化誤差和測量的目的,速度向量場被轉換為由每個節點的的速度大小定義的標量場。圖10顯示了一個隨機測試例子的相對誤差和模型預測。
Burgers' 方程 描述的動力學比前兩種情況更復雜,反映在較高的相對測試誤差。真實狀態和預測狀態的視覺對比表明,該模型能夠在逼近未知動態時達到足夠的精度。
9 方法
在本節中,我們考慮從觀測中學習未知函數的問題,從系統狀態
的觀測
在
個任意空間位置
,
個時間點
。我們引入有效的圖卷積神經網絡替代在連續時間從稀疏數據學習偏微分方程。注意,當我們考慮任意采樣的空間位置和時間點時,我們不考慮部分觀測向量
的情況,即在某個位置的數據在某個時間點丟失。然而,在計算損失時,部分觀測向量可以通過掩蓋觀測缺失的節點來計算。假設函數
不依賴於空間坐標的全局值(global values of the spatial coordinates),即假設系統不包含位置相關的場(position-dependent fields)。
我們采用直線法(method of lines, MOL) (Schiesser, 2012)對式1進行數值計算。MOL包括在中選擇
個節點,並在這些節點上離散
的空間導數。我們將節點放置到觀測位置
。離散化導致
被
近似,並產生下列常微分方程組(ODE),其解漸近地近似於方程1的解
由於離散化的從從真實的PDE函數
繼承了它的未知性質,我們用一個可學習的神經網絡替代函數來近似
。
系統在處的狀態被定義為
,而
是一組除了
的相鄰節點的指標,這些指標要求
在
處求值,
和
是節點
的位置和狀態。由此可見,
的時間倒數
不僅於節點的位置和狀態有關,而且還與相鄰節點的位置和狀態有關,從而形成一個局部耦合的ODE系統
系統中的每個ODE都遵循一個固定位置的解。已經提出了許多ODE求解器(如Euler和Runge-Kutta求解器)來求解整個系統
其中是一個積累的中間時間變量。在時間尺度上線性地向前求解方程3關於節點數
和評估時間點的數量
,而飽和輸入空間(saturating the input sapce)
需要大量節點。在實際應用中,偏微分方程通常應用於二維和三維空間系統中,這種方法是有效的。
9.1 位置不變的圖神經網絡微分
在引入方程2之后,我們從學習過渡到學習
。
在節點
處的值必須僅依賴於節點
和
。此外,
的參數數量和它們的順序是事先不知道的,對於每個節點可能是不同的。這意味着我們的模型
必須能夠處理任意數量的參數,並且必須對它們的順序不變。圖神經網絡(GNNs)(Wu et al., 2020)滿足這些要求。在一個更受限的設置中,鄰居的數量和它們的順序是已知的(例如,如果網格是均勻的),其他類型的模型,例如多層感知機和卷積神經網絡也可以使用。
我們考慮一種圖神經網絡稱為消息傳遞神經網絡(message passing neural networks, MPNNs) (Gilmer et al., 2017),將表示為
其中
表示MPNN的參數。
該公式假設中沒有位置相關的量,但基於該公式的模型對
的平移和旋轉不變,這使得對具有不同節點位置的系統的推廣是可行的,並通過記憶特定位置的動力學(memorizing position-specific dynamic)防止過擬合。
由於其靈活性和計算效率,我們使用了一種基於空間的GNN。主要基於可替代譜的GNNs(alternative-spectral-based GNN)——在節點數量上具有相對較差的伸縮性,並且需要學習全局或依賴於領域的濾波器,由於需要對拉普拉斯矩陣進行特征值分解。
9.2 消息傳遞神經網絡
設圖包含節點
,由測量位置定義,無向邊
,並且假設每個節點和邊緣分別與一個節點特征
和一個邊緣特征
相關聯。我們使用節點鄰域
來定義邊。通過對測量位置進行Delaunay三角剖分,選擇每個節點的鄰居。兩個節點被認為是鄰居,如果它們至少在一個三角形的同一條邊上(圖1)。Delaunay三角剖分具有使每個三角形的最小角度最大化在三角剖分中和包含每個節點的最近鄰等有用特征,有助於獲得
的良好離散性。
在消息傳遞圖神經網絡中,我們傳播個圖層的潛在狀態(latent state),其中每一層
首先由每個節點
的聚合消息
組成,然后更新相應的節點狀態
其中表示置換不變的聚合函數(如sum,mean,max),
,
是由神經網絡參數化的可微函數。在任何時間
,我們初始化潛在狀態
和節點特征到當前系統的狀態
。我們定義邊緣特征
為位置差異。最后,我們使用MPNN圖層(graph layer of the MPNN)的最后一個節點狀態來評估PDE替代函數(PDE surrogate)。
用於求解方程3的估計狀態
9.3 學習連續時間MPNN替代的伴隨方法(adjoint method)
的參數由
定義,
是函數
,
的參數聯合(the union of parameters),
在MPNN中。我們通過最小化觀測狀態
和估計狀態
間的均方誤差來擬合
雖然離散時間神經PDE模型僅在測量時間點評估系統狀態,但對於估計狀態的更精確的連續時間解通常需要更多的系統狀態評估。如果使用自適應求解器(adaptive solver)來獲得估計的狀態,求解器執行的時間步長數量可能顯著大於。通過反向傳播來評估
的梯度所需內存數量與求解器時間步長數量成線性比例。由於大量內存需求,這通常使得反向傳播不可行。我們使用另一種方法,它允許計算內存開銷的梯度,這與求解器的時間步長無關。(Chen et al. (2018))提出了這種方法稱為神經ODEs(neural ODEs),基於(Pontryagin, 2018)的伴隨方法(the adjoint method)。伴隨方法由一個單層前饋ODE通道3直到最后時間
在最后狀態
,隨后反向傳播ODE計算梯度。反向傳播是通過先解伴隨方程來完成的。
對伴隨變量從
到
,其中
,然后計算
來得到最終的梯度。
10 介紹(Introduction)
我們考慮狀態隨時間
而演化,空間位置
的有界鄰域
的連續動力系統。我們假定系統由一個未知的偏微分方程(PDE)控制
系統的時間演化依賴於當前的狀態
和它的空間一階和高階偏導數關於坐標
。這種PDE模型是自然科學的基石,廣泛適用於傳播系統的建模,如聲波行為、流體動力學、散熱、天氣模式、疾病進展或細胞動力學(Courant & Hilbert, 2008)。我們的目標是從數據中學習微分
。
對於特定的系統(Cajori, 1928)手工推導機械的偏微分方程已有很長的歷史,如Navier-Stokes流體動力或Schrodinger的量子方程,並在時間上逼近它們的解(Ames, 2014)。這些努力由數據驅動的方法加以補充,以推斷已知方程中的任何未知或潛在系數(Isakov, 2006; Berg & Nystrom, 2017; Santo et al., 2019),或部分已知的方程(Freund et al., 2019; Seo & Liu, 2019b; Seo et al., 2020)。一系列方法研究了已知偏微分方程的解加速神經替代(neural proxies) (Lagaris et al., 1998; Raissi et al., 2017; Weinan & Yu, 2018;Sirignano & Spiliopoulos, 2018)或不確定性量化(uncertainty quantification) (Khoo et al., 2017)。
相關的工作。 最近(Long et al. (2017))的開創新工作提出了一種完全非機械化方法PDE-Net,其中控制方程是從系統快照中學習的,作為一個卷積神經網絡(CNN)在輸入域離散成一個時空網格(spatio-temporal)。進一步的工作擴展了殘差CNNs(Ruthotto & Haber, 2019][]),符號回歸神經網絡(Long et al., 2019),高階自回歸網絡(high-order autoregressive network) (Geneva & Zabaras, 2020),前饋網絡(Xu et al., 2019)。這些模型基本上局限於離散輸入域的采樣效率低的網格,同時它們也不支持隨時間的持續演化,使得它們無法處理在現實應用中經常遇到的時間或空間上稀疏不均勻的觀測。
模型如(Battaglia et al., 2016; Chang et al., 2016; Sanchez-Gonzalez et al., 2018)對象的狀態演化為其相鄰對象函數的交互網絡有關(the interaction networks where object's state evolves as a function of its neighboring objects),形成動態關系圖而不是網格。與密集的PDE解域(the dense solution fields of PDEs)不同,這些模型在少量移動和交互對象之間應用消息傳遞,這與嚴格意義上的微分函數PDE不同。
(Poli et all. (2019))提出了圖神經常微分方程(graph neural ordinary differential equations, GNODE)作為在圖上建模連續時間型號的框架。該框架應用於學習偏微分方程的主要局限性是缺乏關於物理節點位置的空間信息以及缺乏這種類型模型適合的動機。我們的工作可以看作是通過經典的偏微分方程求解技術將基於圖的連續時間模型與數據驅動的空間偏微分方程聯系起來。
11 方法梳理
考慮一個動力系統其狀態,其中
,
,
數據:
- 時間點
- 觀測點
- 觀測狀態
,其中
假設系統是由方程
所掌控。
模型是基於直線法:
例子,考慮PDE:![]() |
---|
![]() |
![]() |
一般地,考慮PDE:![]() |
---|
![]() |
![]() |
把表示為
即
References:
V. Iakovlev, M. Heinonen, and H. Lähdesmäki, “Learning continuous-time PDEs from sparse data with graph neural networks,” arXiv:2006.08956 [cs, stat], Jan. 2021, Accessed: Oct. 11, 2021. [Online]. Available: http://arxiv.org/abs/2006.08956