Hierarchical Object Detection with Deep Reinforcement Learning
NIPS 2016 WorkShop
Paper : https://arxiv.org/pdf/1611.03718v1.pdf
Project Page : https://github.com/imatge-upc/detection-2016-nipsws
摘要: 我們提出一種基於深度強化學習的等級物體檢測方法 (Hierarchical Object Detection). 關鍵點在於: 專注於圖像的含有更多信息量的區域, 並且放大該區域. 我們訓練一個 intelligent agent, 給定一個圖像窗口, 能夠確定將注意力集中於預先設定的五個區域中的哪一個. 這個過程迭代的提供了一個等級的圖像分析. 我們對比了兩個不同的候選 proposal 策略來引導圖像搜索: with and without overlap. 此外, 我們的方法對比了兩種不同的策略來提取特征: 第一種是對每一個 region proposal 計算新的 feature map ; 另一種方法是對於整幅圖像計算 feature maps 並為后續的每一個 region proposal 提供 crop 的feature map.
模型 Hierarchical Object Detection Model :
我們定義了物體檢測問題當做是序列決策過程 (the sequential decision process). 每一個時間步驟, agent 應該決定圖像的哪個區域應該集中注意力, 以便於少量的步驟內找到物體. 我們將這個問題看作是 Markov Decision Process , 提供了一個框架來建模 decision making.
MDP formulation :
作者首先定義了 MDP 的大致過程 : state, actions, reward :
State : 當前區域 和 記憶向量 構成, 即: the current region and a memory vector. 描述符定義了兩個模型: the Image-Zooms model and the Pool45-Crops model . 狀態的記憶向量(memory vector)捕獲了agent 搜索物體當中,已經選擇的過去 4 個 actions. 由於 agent 是學習一個 bounding box 的 refinement procedure, 一個記憶向量編碼了這個 refinement procedure 的狀態 用來穩定搜索軌跡. 我們將過去的 4 個 actions 編碼成一個 one-shot vector. 由於本文定義了 6 個 actions, 所以向量的維度是 24.
Actions : 跟 ICCV 2015 年的那個檢測的方法一樣, 這里的action 也是定義成了圖像變換的操作 和 停止操作.
Rewards : 此處的設計 與 ICCV 2015 仍然是一致的.
Model :
我們討論了兩種提取特征的方法, 上面就是所用的大致網絡框架. Image-Zooms model and the Pool45-Crops model.
對於 Image-Zooms model 來說, 每一個區域都 resize 成 224*224 的大小, 然后抽取 VGG-16 的 Pool 5 layer 的特征.
對於 Pool45-Crops model, 圖像是 full-resolution 傳給 VGG-16 的 Pool 5 layer.
像 Faster RCNN 的 ROI Pooling 的方法一樣, 本文也是采用這種思路, 只是抽取 ROI 的 feature . 像 SSD 一樣, 我們根據 ROI 的尺寸來選擇 feature map. 對於較大的物體, 本文的方法就選擇較深的 feature map, 而較小的物體, 本文就選擇較淺的 feature map .