目錄
概覽
-
描述:模型基於LSTM神經網絡提出新型的Spatio-Temporal Graph(時空圖),旨在實現在擁擠的環境下,通過將行人-行人,行人-靜態物品兩類交互納入考慮,對行人的軌跡做出預測。
-
訓練與測試數據庫
- 數據庫:ETH Walking Pedestrian & UCY Students and Zara
- 數據:請參見https://www.cnblogs.com/sinoyou/p/11227348.html
QUESTION
數據庫ETH和UCY中均只提供行人的軌跡坐標信息,未提供靜態物體的坐標和分類方式,有關Obstacle的數據來源未知。
-
評價指標與評價結果
-
ADE(Average Displacement Error) - 計算出每位行人整個軌跡偏差的均值,再對所有行人取平均。
ADE = $$\Sigma^N_{j=1}{\Sigma^n_{i=1}\sqrt{(\hat x_i^j - x_i^j)^2 + (\hat y_i^j - y_i^j)^2} \over n} \over N$$
-
FDE(Final Displacement Error)- 計算出每位行人軌跡重點的偏差,再對所有行人取平均。
FDE = $$\Sigma^N_{j=1}{\sqrt{(\hat x_n^j - x_n^j)^2 + (\hat y_n^j - y_n^j)^2}} \over N$$
-
評價結果:
- 對比其他Graph-based baselines:S-RNN、Social Attention等,H-H和H-H-O模型的平均測試結果能夠減少最大為55%的ADE和61%的FDE。
- 對比Social LSTM和SGAN等其他模型,有以下重大提升:
- 在靜止物體較多的數據集(如Hotel和UCY)中,H-H-O模型在FDE錯誤率上最高降低93%。
- 在人群密集處如入口(ETH)中,人群避免碰撞的情況常發生,H-H-O在FDE錯誤率上最高降低89%。
- 相比於其他模型,此模型更適合預測Finial Step,而不是Entire Step。
-
模型
本文在此將基於基於圖的神經網絡資料閱讀整理的已有內容着重強調新模型運用Attention機制在原有SRNN模型基礎上做出的改進,其他基礎型內容請參見鏈接。
Spatio-Temporal Graph

模型中的時空圖有兩類點和三類邊
- Pedestrian Node:行人點
- Object Node:靜態物品點
- Spatial-Edge(兩類):同一時刻不同點之間的連邊。所有行人之間都連有雙向的Spatial-Edge,當行人很靠近Object時,有從Object指向行人的單向Spatial-Edge。
- Temporal-Edge:相鄰時刻連接相同行人點的單向邊。
邊權(edge features)定義
- 不同點之間的邊(Spatial-Edge)如\(x_{v_1v_2}\),表示兩點之間距離。
- 相同點之間的邊(Temporal-Edge)如\(x_{v_1v_1}\),表示該點的位置。
LSTM替換st-graph中的部件
- 將st-graph因式化分解,st-graph的點和邊替換為LSTM序列后得到:temporal edgeLSTM, spatial edgeLSTM, nodeLSTM。
- 同SRNN結構,nodeLSTM的輸出時每一步預測的最終輸出,在每一步運行時會將相鄰edgeLSTMs的輸出經過注意力機制后作為輸入,層級在edgeLSTMs之上。
Edge LSTM
spatial edgeLSTM
對於每條edge都有一個LSTM模型,為了適應后續nodeLSTM處理方式,對於spatial edges將統一處理同一個點為起點的所有spatial edges(以 · 表示)。
$$e^t_{v_2.} = \phi(x_{v_2.}^t;W_s)$$ - embedding
$$h^t_{v_2.} = LSTM(h_{v_2.}^{t-1}, e^t_{v_2.}, W_s^{lstm})$$ - lstm cell
temporal edgeLSTM
對於每個點都僅有一個temporal edgeLSTM,因此無需批量地處理。
$$e_{v_2v_2} = \phi(x^t_{v_2v_2};W_t)$$ - embedding
$$h_{v_2v_2}^t = LSTM(h_{v_2v_2}^{t-1}, e_{v_2v_2}^t, W_t^{lstm})$$ - lstm cell
Node LSTM
QUESTION
Obstacle是否僅在建邊時與pedestrian存在不同,而使用nodeLSTM等都與pedestrian一致?
假設nodeLSTM的輸出滿足二維正態分布
同SRNN模型,\(v_2\)的nodeLSTM將用注意力機制整合來自\(v_2\)相鄰點之間edgeLSTM輸出和\(v_2\)的temporal edgeLSTM輸出作為輸入的一部分(公式中\(H_{v_2}^t\)就是整合得到),最終基於LSTM的輸出是二維正態分布的假設,求出預測的位置或計算損失值(與Social LSTM類似)。
根據文章的解釋,\(x^t_{v_2}\)和\(x^t_{v_2v_2}\)應該相等,即temporal edgeLSTM和nodeLSTM從st-graph所獲取的features應該是一樣的。