文獻閱讀報告 - Situation-Aware Pedestrian Trajectory Prediction with Spatio-Temporal Attention Model


目錄

概覽

  1. 描述:模型基於LSTM神經網絡提出新型的Spatio-Temporal Graph(時空圖),旨在實現在擁擠的環境下,通過將行人-行人,行人-靜態物品兩類交互納入考慮,對行人的軌跡做出預測。

  2. 訓練與測試數據庫

    1. 數據庫:ETH Walking Pedestrian & UCY Students and Zara
    2. 數據:請參見https://www.cnblogs.com/sinoyou/p/11227348.html

    QUESTION

    數據庫ETH和UCY中均只提供行人的軌跡坐標信息,未提供靜態物體的坐標和分類方式,有關Obstacle的數據來源未知。

  3. 評價指標與評價結果

    1. ADE(Average Displacement Error) - 計算出每位行人整個軌跡偏差的均值,再對所有行人取平均。

      ADE = $$\Sigma^N_{j=1}{\Sigma^n_{i=1}\sqrt{(\hat x_i^j - x_i^j)^2 + (\hat y_i^j - y_i^j)^2} \over n} \over N$$

    2. FDE(Final Displacement Error)- 計算出每位行人軌跡重點的偏差,再對所有行人取平均。

      FDE = $$\Sigma^N_{j=1}{\sqrt{(\hat x_n^j - x_n^j)^2 + (\hat y_n^j - y_n^j)^2}} \over N$$

    3. 評價結果:

      1. 對比其他Graph-based baselines:S-RNN、Social Attention等,H-H和H-H-O模型的平均測試結果能夠減少最大為55%的ADE和61%的FDE。
      2. 對比Social LSTM和SGAN等其他模型,有以下重大提升:
        1. 在靜止物體較多的數據集(如Hotel和UCY)中,H-H-O模型在FDE錯誤率上最高降低93%。
        2. 在人群密集處如入口(ETH)中,人群避免碰撞的情況常發生,H-H-O在FDE錯誤率上最高降低89%。
      3. 相比於其他模型,此模型更適合預測Finial Step,而不是Entire Step。

模型

本文在此將基於基於圖的神經網絡資料閱讀整理的已有內容着重強調新模型運用Attention機制在原有SRNN模型基礎上做出的改進,其他基礎型內容請參見鏈接


Spatio-Temporal Graph

模型中的時空圖有兩類點和三類邊

  1. Pedestrian Node:行人點
  2. Object Node:靜態物品點
  3. Spatial-Edge(兩類):同一時刻不同點之間的連邊。所有行人之間都連有雙向的Spatial-Edge,當行人很靠近Object時,有從Object指向行人的單向Spatial-Edge。
  4. Temporal-Edge:相鄰時刻連接相同行人點的單向邊。

邊權(edge features)定義

  1. 不同點之間的邊(Spatial-Edge)如\(x_{v_1v_2}\),表示兩點之間距離。
  2. 相同點之間的邊(Temporal-Edge)如\(x_{v_1v_1}\),表示該點的位置。

LSTM替換st-graph中的部件

  1. 將st-graph因式化分解,st-graph的點和邊替換為LSTM序列后得到:temporal edgeLSTM, spatial edgeLSTM, nodeLSTM
  2. 同SRNN結構,nodeLSTM的輸出時每一步預測的最終輸出,在每一步運行時會將相鄰edgeLSTMs的輸出經過注意力機制后作為輸入,層級在edgeLSTMs之上。

Edge LSTM

spatial edgeLSTM

​ 對於每條edge都有一個LSTM模型,為了適應后續nodeLSTM處理方式,對於spatial edges將統一處理同一個點為起點的所有spatial edges(以 · 表示)。

​ $$e^t_{v_2.} = \phi(x_{v_2.}^t;W_s)$$ - embedding

​ $$h^t_{v_2.} = LSTM(h_{v_2.}^{t-1}, e^t_{v_2.}, W_s^{lstm})$$ - lstm cell


temporal edgeLSTM

​ 對於每個點都僅有一個temporal edgeLSTM,因此無需批量地處理。

​ $$e_{v_2v_2} = \phi(x^t_{v_2v_2};W_t)$$ - embedding

​ $$h_{v_2v_2}^t = LSTM(h_{v_2v_2}^{t-1}, e_{v_2v_2}^t, W_t^{lstm})$$ - lstm cell


Node LSTM

QUESTION

Obstacle是否僅在建邊時與pedestrian存在不同,而使用nodeLSTM等都與pedestrian一致?

假設nodeLSTM的輸出滿足二維正態分布

同SRNN模型,\(v_2\)的nodeLSTM將用注意力機制整合來自\(v_2\)相鄰點之間edgeLSTM輸出和\(v_2\)的temporal edgeLSTM輸出作為輸入的一部分(公式中\(H_{v_2}^t\)就是整合得到),最終基於LSTM的輸出是二維正態分布的假設,求出預測的位置或計算損失值(與Social LSTM類似)。

\[\mu_{v_2}^{t+1}, \sigma_{v_2}^{t+1}, \rho_{v_2}^{t+1} = W_{out}h_{v_2}^t \]

\[(x_{v_2}^{t+1}, y_{v_2}^{t+1}) \sim N(\mu_{v_2}^{t+1}, \sigma_{v_2}^{t+1}, \rho_{v_2}^{t+1}) \]

根據文章的解釋,\(x^t_{v_2}\)\(x^t_{v_2v_2}\)應該相等,即temporal edgeLSTM和nodeLSTM從st-graph所獲取的features應該是一樣的。


Node LSTM

\[e_{v_2}^t = \phi(x_{v_2}^t; W_{embed}) $$ - embedding $$h_{v_2}^t = LSTM(e_{v_2}^t, concat(h_{v_2}^t, H_{v_2}^t, e_{v2}^t), W^{lstm})$$ - lstm cell <br> #### $H_{v_2}^t$的運算 文獻中對於$H_{v_2}$的計算方式已經通過圖示展現的很清晰明顯了,大體就是將來自spatial edgeLSTM和temporal edgeLSTM的輸出$h_{v_2.}^t,h_{v_2v_2}^t$經過PRelu和softmax得到的歸一化$\hat e_{v_2.}$,與源數據作乘法得到注意力權重$a_{v_2}^t$,將這些權重累加並取平局即得到加權平均的隱藏狀態$H_{v_2}$。 > QUESTION > > 該文獻與其他文獻對於注意力權重的稱呼有所不同,其他參考文獻中將經過softmax歸一化的數據稱作注意力權重(coefficient),即$\hat e_{v_2}$,將$a_{v_2}.$稱作加權結果,但該文獻中將$a_{v_2}.$稱作注意力權重,權重之和再平均就是加權的隱藏狀態。 ![](https://img2018.cnblogs.com/blog/1616500/201908/1616500-20190806172734214-102230259.png) 模型在求得$H_{v_2}$使用的正是注意力機制,在借鑒了multi-head attention機制后改進出multi-node attention機制,有以下幾個要點: 1. 引入了PReLU函數,相比於常規Relu有一個可訓練的參數P,以便讓負值隱藏值有細微跨度差異,實驗證明對效果有提升。 2. **multi-node vs multi-head**:相較於multi-head attention,模型提出的注意力模型沒有使用scale dot-product操作,而是用累加和平均的方式,也就沒有大幅壓縮向量維度,保留信息更充分。\]


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM