Multi-Agent Reinforcement Learning Based Frame Sampling for Effective Untrimmed Video Recognition


Multi-Agent Reinforcement Learning Based Frame Sampling for Effective Untrimmed Video Recognition

ICCV 2019 (oral)

2019-08-01 15:08:19

 

Paperhttps://arxiv.org/abs/1907.13369 

 

1. Backgroud and Motivation

本文提出一種基於多智能體強化學習的未裁剪視頻識別模型,來自適應的從未裁剪視頻中,截取出樣本視頻幀進行行為識別。具體的示意圖如下所示:

 

2. Architecture 

2.1 Context-aware Observation Network

這個 context-aware observation network 是一個基礎的觀測網絡,隨后是 context network。這個基礎的觀測網絡是用於編碼 選中的視頻幀的視頻信息,輸出為 feature vector,作為 context network 的輸入。與 single-agent 系統不同的是,multi-agent 的系統,每一個智能體的選擇不僅依賴於 local environment state,而且受到 context information 的影響。所以,我們設計了一個 context-aware module,來維持一個  joint internal state of agents,用一個 RNN 網絡將 history context information 進行總結。為了能夠使之更加有效的工作,每一個智能體 only accesses context information from its 2M neighboring agents but not from all agents. 正式的來說,所有的時間步驟 t,智能體 a 觀測到一個組合的狀態 $s_t^a$ 及其 之前的 hidden state $h_{t-1}^a$ 作為 context module 的輸入,然后產生其當前的 hidden states:

 

 

2.2 Policy Network

作者采用 fc + softmax function 作為 policy network。在每一個時間步驟 t,每一個智能體 a,根據策略網絡產生的概率分布, 選擇一個動作 $u_t^a$ 來執行。動作集合是一個離散的空間 {moving ahead, moving back and staying}。並且設置一定的步幅。當所有的智能體都選擇 staying 的時候,意味着該停止了。

 

2.3 Classification Network

就是將選中的視頻幀進行 action 的分類。

 

3. Objectives 

本文將同時進行 獎勵最大化的優化 以及 分類網絡的優化。

3.1 MARL Objective

Reward function: 獎勵函數反應了 agents 選擇動作的好壞。當所有的智能體都選擇動作時,每一個時刻 t,每一個智能體基於分類的概率 $p_t^a$ 得到了其各自的獎勵 $r_t^a$ 。給予 agent 獎勵可以促使其知道更加具有信息量的 frame,從而一步一步的改善正確預測的概率。所以,作者設計了一個簡單的獎勵函數,鼓勵模型增加其 confidence。特定的,對於第 t 個時間步驟來說,agent a 接收的獎勵按照如下的方式進行計算:

其中,$p_{t,c}^a$ 代表了智能體 a 在時刻 t 模型將其預測為 class c 的概率,gt 是視頻的 ground truth label。所有的智能體共享同一個 reward function。考慮到序列決策的場景,考慮累積折扣回報是更加合適的,即:將來的獎勵對當前的步驟貢獻更小一些。特別的,在時刻 t,對於智能體 a 來說,折扣的回報可以計算如下:

Policy Gradient: 服從 REINFORCE 算法,作者將目標函數設置為:

在本文的情況下,學習網絡參數使其可以最大化上述公式,其梯度為:

這變成了一個 non-trivial optimization problem, 由於 action sequence space 的維度過高。REINFORCE 通過蒙特卡洛采樣的方式,進行梯度的估計:

然后,我們可以利用隨機梯度下降的方式,來最小化下面的損失:

 

 

Maximum entropy

為了避免讓策略迅速變的 deterministic,研究者考慮將 entropy regularization 技術引入到 DRL 算法中,以鼓勵探索。更大的熵,agent 就會更加偏向於探索其他動作。所以,我們利用 policy 的 entropy 來進行正則:

所以,MARL 總得損失是上述兩個損失函數的加和:

 

 

3.2 Classification Objective

作者用 Cross-entropy loss 來最小化 gt 和 prediction p 之間的 KL-散度:

最終,我們優化組合損失,即:

 

4. Experiments

 

==

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM