Multi-Agent Reinforcement Learning Based Frame Sampling for Effective Untrimmed Video Recognition

本文轉載自查看原文 2019-08-01 13:11 510 論文閱讀/ Multi-Agent Deep Reinforcement Learning/ Action Recognition/ Deep Reinforcement Learning

Multi-Agent Reinforcement Learning Based Frame Sampling for Effective Untrimmed Video Recognition

ICCV 2019 (oral)

2019-08-01 15:08:19

Paper：https://arxiv.org/abs/1907.13369

1. Backgroud and Motivation:

本文提出一種基於多智能體強化學習的未裁剪視頻識別模型，來自適應的從未裁剪視頻中，截取出樣本視頻幀進行行為識別。具體的示意圖如下所示：

2. Architecture

2.1 Context-aware Observation Network:

這個 context-aware observation network 是一個基礎的觀測網絡，隨后是 context network。這個基礎的觀測網絡是用於編碼選中的視頻幀的視頻信息，輸出為 feature vector，作為 context network 的輸入。與 single-agent 系統不同的是，multi-agent 的系統，每一個智能體的選擇不僅依賴於 local environment state，而且受到 context information 的影響。所以，我們設計了一個 context-aware module，來維持一個 joint internal state of agents，用一個 RNN 網絡將 history context information 進行總結。為了能夠使之更加有效的工作，每一個智能體 only accesses context information from its 2M neighboring agents but not from all agents. 正式的來說，所有的時間步驟 t，智能體 a 觀測到一個組合的狀態 $s_t^a$ 及其之前的 hidden state $h_{t-1}^a$ 作為 context module 的輸入，然后產生其當前的 hidden states：

2.2 Policy Network：

作者采用 fc + softmax function 作為 policy network。在每一個時間步驟 t，每一個智能體 a，根據策略網絡產生的概率分布，選擇一個動作 $u_t^a$ 來執行。動作集合是一個離散的空間 {moving ahead, moving back and staying}。並且設置一定的步幅。當所有的智能體都選擇 staying 的時候，意味着該停止了。

2.3 Classification Network：

就是將選中的視頻幀進行 action 的分類。

3. Objectives

本文將同時進行獎勵最大化的優化以及分類網絡的優化。

3.1 MARL Objective：

Reward function: 獎勵函數反應了 agents 選擇動作的好壞。當所有的智能體都選擇動作時，每一個時刻 t，每一個智能體基於分類的概率 $p_t^a$ 得到了其各自的獎勵 $r_t^a$ 。給予 agent 獎勵可以促使其知道更加具有信息量的 frame，從而一步一步的改善正確預測的概率。所以，作者設計了一個簡單的獎勵函數，鼓勵模型增加其 confidence。特定的，對於第 t 個時間步驟來說，agent a 接收的獎勵按照如下的方式進行計算：

其中，$p_{t,c}^a$ 代表了智能體 a 在時刻 t 模型將其預測為 class c 的概率，gt 是視頻的 ground truth label。所有的智能體共享同一個 reward function。考慮到序列決策的場景，考慮累積折扣回報是更加合適的，即：將來的獎勵對當前的步驟貢獻更小一些。特別的，在時刻 t，對於智能體 a 來說，折扣的回報可以計算如下：