文獻閱讀報告 - Situation-Aware Pedestrian Trajectory Prediction with Spatio-Temporal Attention Model

本文轉載自查看原文 2019-08-06 17:38 582 lstm/ attention mechanism/ autonomous vehicle/ spatio-temporal graph

概覽

描述：模型基於LSTM神經網絡提出新型的Spatio-Temporal Graph（時空圖），旨在實現在擁擠的環境下，通過將行人-行人，行人-靜態物品兩類交互納入考慮，對行人的軌跡做出預測。
訓練與測試數據庫
1. 數據庫：ETH Walking Pedestrian & UCY Students and Zara
2. 數據：請參見https://www.cnblogs.com/sinoyou/p/11227348.html
QUESTION

數據庫ETH和UCY中均只提供行人的軌跡坐標信息，未提供靜態物體的坐標和分類方式，有關Obstacle的數據來源未知。
評價指標與評價結果
1. ADE（Average Displacement Error） - 計算出每位行人整個軌跡偏差的均值，再對所有行人取平均。
  
  ADE = $$\Sigma^N_{j=1}{\Sigma^n_{i=1}\sqrt{(\hat x_i^j - x_i^j)^2 + (\hat y_i^j - y_i^j)^2} \over n} \over N$$
2. FDE（Final Displacement Error）- 計算出每位行人軌跡重點的偏差，再對所有行人取平均。
  
  FDE = $$\Sigma^N_{j=1}{\sqrt{(\hat x_n^j - x_n^j)^2 + (\hat y_n^j - y_n^j)^2}} \over N$$
3. 評價結果：
  1. 對比其他Graph-based baselines：S-RNN、Social Attention等，H-H和H-H-O模型的平均測試結果能夠減少最大為55%的ADE和61%的FDE。
  2. 對比Social LSTM和SGAN等其他模型，有以下重大提升：
    1. 在靜止物體較多的數據集（如Hotel和UCY）中，H-H-O模型在FDE錯誤率上最高降低93%。
    2. 在人群密集處如入口（ETH）中，人群避免碰撞的情況常發生，H-H-O在FDE錯誤率上最高降低89%。
  3. 相比於其他模型，此模型更適合預測Finial Step，而不是Entire Step。

模型

本文在此將基於基於圖的神經網絡資料閱讀整理的已有內容着重強調新模型運用Attention機制在原有SRNN模型基礎上做出的改進，其他基礎型內容請參見鏈接。

Spatio-Temporal Graph

模型中的時空圖有兩類點和三類邊

Pedestrian Node：行人點
Object Node：靜態物品點
Spatial-Edge（兩類）：同一時刻不同點之間的連邊。所有行人之間都連有雙向的Spatial-Edge，當行人很靠近Object時，有從Object指向行人的單向Spatial-Edge。
Temporal-Edge：相鄰時刻連接相同行人點的單向邊。

邊權（edge features）定義

不同點之間的邊（Spatial-Edge）如$x_{v_1v_2}$，表示兩點之間距離。
相同點之間的邊（Temporal-Edge）如$x_{v_1v_1}$，表示該點的位置。

LSTM替換st-graph中的部件

將st-graph因式化分解，st-graph的點和邊替換為LSTM序列后得到：temporal edgeLSTM, spatial edgeLSTM, nodeLSTM。
同SRNN結構，nodeLSTM的輸出時每一步預測的最終輸出，在每一步運行時會將相鄰edgeLSTMs的輸出經過注意力機制后作為輸入，層級在edgeLSTMs之上。

Edge LSTM

spatial edgeLSTM

對於每條edge都有一個LSTM模型，為了適應后續nodeLSTM處理方式，對於spatial edges將統一處理同一個點為起點的所有spatial edges（以 · 表示）。

$$e^t_{v_2.} = \phi(x_{v_2.}^t;W_s)$$ - embedding

$$h^t_{v_2.} = LSTM(h_{v_2.}^{t-1}, e^t_{v_2.}, W_s^{lstm})$$ - lstm cell

temporal edgeLSTM

對於每個點都僅有一個temporal edgeLSTM，因此無需批量地處理。

$$e_{v_2v_2} = \phi(x^t_{v_2v_2};W_t)$$ - embedding

$$h_{v_2v_2}^t = LSTM(h_{v_2v_2}^{t-1}, e_{v_2v_2}^t, W_t^{lstm})$$ - lstm cell

Node LSTM

QUESTION

Obstacle是否僅在建邊時與pedestrian存在不同，而使用nodeLSTM等都與pedestrian一致？

假設nodeLSTM的輸出滿足二維正態分布

同SRNN模型，$v_2$的nodeLSTM將用注意力機制整合來自$v_2$相鄰點之間edgeLSTM輸出和$v_2$的temporal edgeLSTM輸出作為輸入的一部分（公式中$H_{v_2}^t$就是整合得到），最終基於LSTM的輸出是二維正態分布的假設，求出預測的位置或計算損失值（與Social LSTM類似）。

\[\mu_{v_2}^{t+1}, \sigma_{v_2}^{t+1}, \rho_{v_2}^{t+1} = W_{out}h_{v_2}^t \]

\[(x_{v_2}^{t+1}, y_{v_2}^{t+1}) \sim N(\mu_{v_2}^{t+1}, \sigma_{v_2}^{t+1}, \rho_{v_2}^{t+1}) \]

根據文章的解釋，$x^t_{v_2}$和$x^t_{v_2v_2}$應該相等，即temporal edgeLSTM和nodeLSTM從st-graph所獲取的features應該是一樣的。

Node LSTM

\[e_{v_2}^t = \phi(x_{v_2}^t; W_{embed}) $$ - embedding $$h_{v_2}^t = LSTM(e_{v_2}^t, concat(h_{v_2}^t, H_{v_2}^t, e_{v2}^t), W^{lstm})$$ - lstm cell <br> #### $H_{v_2}^t$的運算文獻中對於$H_{v_2}$的計算方式已經通過圖示展現的很清晰明顯了，大體就是將來自spatial edgeLSTM和temporal edgeLSTM的輸出$h_{v_2.}^t,h_{v_2v_2}^t$經過PRelu和softmax得到的歸一化$\hat e_{v_2.}$，與源數據作乘法得到注意力權重$a_{v_2}^t$，將這些權重累加並取平局即得到加權平均的隱藏狀態$H_{v_2}$。 > QUESTION > > 該文獻與其他文獻對於注意力權重的稱呼有所不同，其他參考文獻中將經過softmax歸一化的數據稱作注意力權重（coefficient），即$\hat e_{v_2}$，將$a_{v_2}.$稱作加權結果，但該文獻中將$a_{v_2}.$稱作注意力權重，權重之和再平均就是加權的隱藏狀態。 ![](https://img2018.cnblogs.com/blog/1616500/201908/1616500-20190806172734214-102230259.png) 模型在求得$H_{v_2}$使用的正是注意力機制，在借鑒了multi-head attention機制后改進出multi-node attention機制，有以下幾個要點： 1. 引入了PReLU函數，相比於常規Relu有一個可訓練的參數P，以便讓負值隱藏值有細微跨度差異，實驗證明對效果有提升。 2. **multi-node vs multi-head**：相較於multi-head attention，模型提出的注意力模型沒有使用scale dot-product操作，而是用累加和平均的方式，也就沒有大幅壓縮向量維度，保留信息更充分。\]

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 文獻閱讀報告 - Social LSTM:Human Trajectory Prediction in Crowded Spaces 雜七雜八的工具（LaTex）——一個文獻閱讀報告模板關於SVM的閱讀報告《Fast Traking via Spatio-Temporal Context Learning》要點整理與代碼實現之一 CVPR2018: Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatio-temporal Patterns 通過影響函數來理解黑盒預測---論文閱讀報告論文閱讀筆記（三十六）【AAAI2020】：Relation-Guided Spatial Attention and Temporal Reﬁnement for Video-based Person Re-Identiﬁcation Attention Model詳解 VAR 經典文獻閱讀【論文閱讀】HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis