Multi-Agent Reinforcement Learning Based Frame Sampling for Effective Untrimmed Video Recognition
ICCV 2019 (oral)
2019-08-01 15:08:19
Paper:https://arxiv.org/abs/1907.13369
1. Backgroud and Motivation:
本文提出一種基於多智能體強化學習的未裁剪視頻識別模型,來自適應的從未裁剪視頻中,截取出樣本視頻幀進行行為識別。具體的示意圖如下所示:
2. Architecture
2.1 Context-aware Observation Network:
這個 context-aware observation network 是一個基礎的觀測網絡,隨后是 context network。這個基礎的觀測網絡是用於編碼 選中的視頻幀的視頻信息,輸出為 feature vector,作為 context network 的輸入。與 single-agent 系統不同的是,multi-agent 的系統,每一個智能體的選擇不僅依賴於 local environment state,而且受到 context information 的影響。所以,我們設計了一個 context-aware module,來維持一個 joint internal state of agents,用一個 RNN 網絡將 history context information 進行總結。為了能夠使之更加有效的工作,每一個智能體 only accesses context information from its 2M neighboring agents but not from all agents. 正式的來說,所有的時間步驟 t,智能體 a 觀測到一個組合的狀態 $s_t^a$ 及其 之前的 hidden state $h_{t-1}^a$ 作為 context module 的輸入,然后產生其當前的 hidden states:
2.2 Policy Network:
作者采用 fc + softmax function 作為 policy network。在每一個時間步驟 t,每一個智能體 a,根據策略網絡產生的概率分布, 選擇一個動作 $u_t^a$ 來執行。動作集合是一個離散的空間 {moving ahead, moving back and staying}。並且設置一定的步幅。當所有的智能體都選擇 staying 的時候,意味着該停止了。
2.3 Classification Network:
就是將選中的視頻幀進行 action 的分類。
3. Objectives
本文將同時進行 獎勵最大化的優化 以及 分類網絡的優化。
3.1 MARL Objective:
Reward function: 獎勵函數反應了 agents 選擇動作的好壞。當所有的智能體都選擇動作時,每一個時刻 t,每一個智能體基於分類的概率 $p_t^a$ 得到了其各自的獎勵 $r_t^a$ 。給予 agent 獎勵可以促使其知道更加具有信息量的 frame,從而一步一步的改善正確預測的概率。所以,作者設計了一個簡單的獎勵函數,鼓勵模型增加其 confidence。特定的,對於第 t 個時間步驟來說,agent a 接收的獎勵按照如下的方式進行計算:
其中,$p_{t,c}^a$ 代表了智能體 a 在時刻 t 模型將其預測為 class c 的概率,gt 是視頻的 ground truth label。所有的智能體共享同一個 reward function。考慮到序列決策的場景,考慮累積折扣回報是更加合適的,即:將來的獎勵對當前的步驟貢獻更小一些。特別的,在時刻 t,對於智能體 a 來說,折扣的回報可以計算如下:
Policy Gradient: 服從 REINFORCE 算法,作者將目標函數設置為:
在本文的情況下,學習網絡參數使其可以最大化上述公式,其梯度為:
這變成了一個 non-trivial optimization problem, 由於 action sequence space 的維度過高。REINFORCE 通過蒙特卡洛采樣的方式,進行梯度的估計:
然后,我們可以利用隨機梯度下降的方式,來最小化下面的損失:
Maximum entropy:
為了避免讓策略迅速變的 deterministic,研究者考慮將 entropy regularization 技術引入到 DRL 算法中,以鼓勵探索。更大的熵,agent 就會更加偏向於探索其他動作。所以,我們利用 policy 的 entropy 來進行正則:
所以,MARL 總得損失是上述兩個損失函數的加和:
3.2 Classification Objective :
作者用 Cross-entropy loss 來最小化 gt 和 prediction p 之間的 KL-散度:
最終,我們優化組合損失,即:
4. Experiments:
==