軌跡預測文獻閱讀整理(軌跡多樣性、車輛軌跡、圖神經網絡、潛碼)


近日閱讀了一些和軌跡預測相關的文獻,但由於學業事務較多,因此無法抽出足夠的時間對文章進行細致的梳理,在此對所閱讀的5篇文章中的亮點進行簡要的梳理。

5篇論文的研究目的都是使用端到端的深度學習模型,利用序列型數據預測后續的軌跡行徑,研究的對象有經典的俯瞰監控視角的ETH/UCY數據集,也有預測車輛行駛軌跡的數據集。軌跡預測的核心結構依舊以Seq2Seq為主,所提出的不同模型方法主要旨在從交互性建模的效率預測結果的多樣性兩個方面進行了創新。

關於這兩個創新的方面,存在的問題和一些解決方案有:

  • 交互性建模:
    • 描述:在復雜的行人道路或行車道路中,個體的軌跡運動決策受到其他個體的相互作用影響,讓深度學習模型通過數據自動化地學習到相互作用的影響,有助於生成更准確、更可行的軌跡方案。
    • 部分解決方案,可以在個體的位置上建立Grid框,對在框中的其他個體狀態進行壓縮池化,生成固定長度的交互信息;也可以借助圖神經網絡,引入圖卷積或圖注意力機制對交互狀態進行編碼。
  • 預測多樣性:
    • 描述:常規的學習模型實現的是找到\(f:X \to Y\)的函數映射,但是對於軌跡,從常識來看模型並不是函數,而是one-to-many的映射關系,因此使用常規的訓練方式會使模型容易陷入mode-averaging(預測的結果靠近一種折中的狀態,但這種並不是所需要的)。
    • 部分解決方案:基於生成對抗式網絡(GAN)或自動編碼機(AutoEnoder)這類常用的生成式結構,通過引入基於分布的噪音(潛碼),主要通過設計流程或目標函數,訓練模型學習噪音分布與行為模式的關系,從而針對同樣的已知信息,能夠給定不同的噪音(行為模式),生成多樣化的軌跡。

TPPO: A Novel Trajectory Predictor with Pseudo Oracle

Yang B, Yan G, Wang P, et al. TPPO: A Novel Trajectory Predictor with Pseudo Oracle[J]. arXiv preprint arXiv:2002.01852, 2020.

簡述:設計了基於俯瞰監控視角的行人軌跡預測模型,在SGAN模型的基礎上,重點關注如何更有效地提取交互信息和生成多種可行性的軌跡。

HighLights:

  • 適應性潛碼的生成:

    • 背景:SGAN所基於的conditional-GAN,是在原有只以來噪音的GAN基礎上,新增額外的條件信息(即通過已知軌跡所提取的軌跡信息),可認為噪音的分布其實是不同的行動模式。但是,對於不同的輸入軌跡,其具有的行動模式可能無法由一個固定的先驗噪音分布來刻畫,而所需要能夠學習不同行動模式的類。
    • 改進:如上圖模型結構中,在原有的GAN生成結構中新增了生成潛碼分布的模塊,先驗分布的形態保持為正態分布,但其均值和方差值由模型學習得到。有兩個分布生成器,訓練時,學習整個軌跡的分布器所生成的分布作為潛碼分布,同時訓練學習已知軌跡的分布器;而預測時,學習已知軌跡的分布器生成的分布作為潛碼分布。
  • 交互信息編碼

    • 交互建模是池化+注意力機制,注意力權重的計算依據的是行人之間幾何角度方位的差異,模型借鑒了“Field of View”的定義用來刻畫正常個體在行進時能夠觀察到的視角。與直接划清視角范圍,模型利用注意力機制學習視角,建立任意兩個個體角度的余弦值,形成矩陣,訓練權重矩陣根據余弦值得出注意力權重。
    • Value - 周邊個體的狀態,Key - 周邊個體的運動方向,Query - 預測個體的運動方向。

損失函數

\(L = L_{adv} + \alpha \times L_{variety} + \beta \times L_{KD}\)

第一項:GAN損失;第二項:SGAN中的變種L2損失;第三項:潛碼分布生成的KD損失。

Multiple Futures Prediction

Tang C, Salakhutdinov R R. Multiple futures prediction[C]//Advances in Neural Information Processing Systems. 2019: 15398-15408.

概述:文章旨在解決在車輛在常見的行車環境中的行駛軌跡預測,重點嘗試研究潛碼的定義與生成,以做到更加實際可用的多軌跡生成,同時還研究了如何提取交互型特征。這篇文章的理論性很強,邏輯關聯也很緊密。

Highlights

  • 離散型潛碼:文章說明了使用連續性分布作為潛碼的近似后驗分布將無法直接計算,必須要靠蒙特卡洛采樣等方法進行近似性的評估,這種采樣評估的方式實用價值不高。因此,文章用離散型的\(z^n \sim Multinoulli(K)\)分布作為隨機潛碼的分布,這種分布的狀態數是有限的,模型自動學習將分布與運動模式相聯系,推理預測時遍歷分布即可。
  • 嚴謹的數學概率推導公式作為支撐:文章中使用了很多篇幅從概率方面重點探討設計模型的原因和原理,例如:

    • 在編碼交互信息時,由於其他行人的意識(latent variable)無法直接被求出,因此交互特征的提取只能依靠外在的表現。 -> 由此,概率公式寫成了公式(5)。
  • 比較詳盡的如何設計模型學習的目標函數的過程,包括如何進行變分近似以滿足可行性,最終得到的公式(8)就是整體訓練優化函數,訓練時會拆解成多步進行,框架和TPPO文章中的訓練是類似的。

  • 數學技巧的注釋,例如\(log(\Sigma_Z(p(Y,Z | X; \theta)))= \Sigma_Zp(Z|X,Y;\theta)log(\frac{p(Y,Z|X;\theta)}{p(Z|Y,X;\theta)})\),使用了log-derivative trick的技巧,這些機器學習的技巧還在學習,暫時沒有完全弄清楚。Tricks

  • 允許what-ifs的假設預測,更好滿足計划與決策時的需求:交互性特征提取的模型貫穿整個過程(即在預測階段也會進行交互特征提取),相較於只在已知軌跡階段進行交互特征提取,全過程的能夠固定某個個體的狀態不變,查看其余個體的后續行動。

Stochastic Trajectory Prediction with Social Graph Network

Zhang L, She Q, Guo P. Stochastic trajectory prediction with social graph network[J]. arXiv preprint arXiv:1907.10233, 2019.

簡述:模型基於圖神經網絡和Seq2Seq模型,對監控視角的行人軌跡進行預測。潛碼設計是該模型的亮點,相比於SGAN,本模型的潛碼設計要復雜很多,是基於時間的潛碼。

Highlights

  • 圖建模:行人間的交互性不是完全雙向的,受限於視角等因素影響存在差異,因此建立的是有向邊;將圖神經網絡設計成了多層——Blocks,類似於MLP的結構,提取更抽象的信息。
  • 序列型的潛碼構建:紅框部分,這種潛碼的構建原理在於人在行動過程中,意識隨着周圍情況可能發生改變
    • \(x_{\lt t}\)的序列獲取第\(t\)時刻的意識(潛碼)\(z_t\),由\(p_{\psi}(z_t|x_{\lt t})=LSTM(x_{\lt t})\)來生成先驗分布。
    • 為了能夠訓練好上述的先驗分布推理器,需要用$ p_{\phi}(z_t|x_{\le t})=LSTM(x_{\le t})\(來生成后驗分布,而后\)\psi\(變利用和\)\phi\(之間的KL散度作為目標函數進行優化。而\)\phi$的學習則是在訓練模型預測軌跡的准確性中完成。這和上文TPPO中如何得到潛碼生成器的思路是一樣的
    • 在訓練/推理階段,紅框中的LSTM內容應該是不一樣的。
  • 分步式生成解碼:在圖中的藍框部分,有兩層LSTM,第一段LSTM在得到潛碼和交互特征后生成軌跡,而后第二段LSTM綜合生成的軌跡和最初每條軌跡獨立嵌入得到的信息,對軌跡進行微調,使其更符合個人的目標。這種方法有助於當設計一種模型,並重點強化某種考慮的因素
  • 注意:上述模型圖理解起來比較抽象,因為其並不是嚴格執行順序建立的,只是展示了整個網絡的物理結構,大體反映迭代預測一步的執行順序。

SCALE-Net: Scalable Vehicle Trajectory Prediction Network

1 Jeon H, Choi J, Kum D. SCALE-Net: Scalable Vehicle Trajectory Prediction Network under Random Number of Interacting Vehicles via Edge-enhanced Graph Convolutional Neural Network[J]. arXiv preprint arXiv:2002.12609, 2020.

2 Gong L, Cheng Q. Exploiting edge features for graph neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 9211-9219.

概述:文章旨在使用能夠學習特征的圖神經網絡對行進車流中其他車輛進行特征提取,並進行所有車輛的軌跡預測,在保持性能不變的條件下的可擴充性是其研究目標,使得在基本不變的運算量情況下保持較好的預測結果。

Highlights

  • 基於EGNN圖神經網絡的交互信息編碼:在上圖的整個模型概覽中,可以看到由觀測到的原始序列數據,化成兩條流程生成,最后再交給生成器(解碼器)生成軌跡。上方的流程主要就是提取交互性特征的,使用的是論文[2]中所提出的圖神經網絡,這種模型相較於GAT網絡而言,最大的變化是允許邊的特征也是多維度的,從而允許圖網絡的邊攜帶更多的信息

    • EGNN原始公式:EGNN是多層的圖神經網絡(可以類比於MLP),對於其中一層的更新狀態為:

      • \(X^l = \sigma[\parallel_{p=1}^P (\alpha_{..p}^l(X^{l-1}, E_{..p}^{l-1})g^l(X^{l-1}))]\)

      • 其中\(X^l\)代表圖中第\(l\)層所有節點的狀態,其由邊向量的各個\(P\)頻道生成的張量拼接在一起經過激活函數\(\sigma\)生成。對於\(\alpha_{..p}^l(X^{l-1}, E_{..p}^{l-1})\)這部分公式的具體流程,論文中給出了兩個具體公式:

        \(\alpha_{..p}^l=DS(\hat\alpha_{..p}^l)\)

        \(\hat\alpha_{ijp}^l=f(X_i^{l-1}, X_i^{l-1})E_{i,j,p}^{i-1}\)

        DS - doubly stochastic normalization(雙隨機正則化?),f函數可以為任何的注意力函數。

      • 補充:此外,EGNN模型的原文中還有很多預處理相關的步驟,在此不再展開。

    • SCALE-Net采用了EGNN這種模型, 對於每個時刻,每個車為一個節點,節點狀態為\(X_l=[x_e, y_e, v_{x_e}, v_{y_e}, \theta_e]\) (x坐標、y坐標、x方向速度、y方向速度和傾角), 而節點間的邊大體按照\(E_{ij} = |X_i - X_j|\)表示(當然還有很多細節處理問題),呈現出多維的狀態。建好的圖就用多層的EGNN算法計算即可。下一個時刻,圖模型又會重新建造,EGNN重新運行,每次EGNN最后一層的輸出交給序列模型處理。

    • 對於EGNN中的幾個抽象方法的實現不再這里展開,下面的流程圖展示了由t時刻的所有車狀態為數據,在計算4號節點的交互特征的\(l+1\)層時流程圖,紅色為節點狀態,綠色為邊狀態:

  • 關於坐標基的選擇考慮:在編碼交互信息時,選擇了使用同一的坐標,以便提取出的交互信息所有車都能使用;而在下方的流程中,在獨立編碼每輛車的運行軌跡時,將坐標切換到了每輛車相對於自己出發點的相對位置,這樣的好處在於起到了標准化的作用,這種間接標准化的方法比較新穎。

問題

  • 運算量平行實驗指標:為了展示該模型在可擴充的周圍車輛環境中運行效率的穩定,將SCALE-Net、LSTM等網絡進行了平行的對比實驗,得到的結果是“SCALE-Net隨車輛增加運行時間基本沒有什么變化,而Vanilla LSTM則隨着車輛增加線性變化”。這可能是實驗代碼撰寫的差異導致的性能低下,在SCALE-Net中預測軌跡時是多個LSTM並行生成,而在Vanilla LSTM中,則使用LSTM逐個生成,但實際上也可以並行生成。無論怎么來說,Vanilla LSTM可以算作是SCALE-Net中的一小部分,不可能具有更大的計算量。
  • 不確定性:車輛駕駛環境下的軌跡預測對安全性和可靠性要求很高,該模型生成的軌跡是單一軌跡,在不確定度、預測概率分布等方面都還沒有做考慮。

STGAT

Huang Y, Bi H K, Li Z, et al. STGAT: Modeling Spatial-Temporal Interactions for Human Trajectory Prediction[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 6272-6281.

簡述:STGAT基於Seq2Seq的結構,重點在使用GAT(Graph Attention Network)提取交互信息,是一個比較輕量的網絡。也加入了固定先驗分布的噪音,以生成多樣性的軌跡。

Highlights

  • 序列GAT網絡:利用序列模型編碼每一條軌跡序列,每一步都存在序列模型都會生成狀態,而后針對每個個體,使用GAT網絡計算注意力權重,將這些狀態加權平均形成該個體在時刻的交互信息。
  • 在neck vector出新增了噪音,但是由於缺少了GAN、VAE等生成模型的結構,不太清楚模型對噪音-行為模式關聯度的學習效果。實驗中的multimodal評價的圖比較少。
  • 模型可解釋性:利用GAT中的注意力機制,在繪制預測軌跡時現實了在不同時刻的交互信息的重要性。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM