Inside-Outside Net: Detecting Objects in Context with Skip
本文的關鍵詞是: contextual information, multi-scale representations
使用 contextual information,是通過 spatial recurrent neural network來實現對outside the region of interest 的信息的提取。
對multi-scale representation,使用skip pooling來對不同scale不同level的特征的提取,並且concatenate融合
ION的網絡結構:

(1), spatial Recurrent Neural Network (RNNs)
RNNs在每一層空間上,通過水平或者垂直的四個方向進行提取上下文信息。使用兩個RNNs,保證可以獲取整張image的信息。
對比其他common methods for adding contextual information: 還有 global average pooling 和 additional convolutional layers,都很相似。
(2), skip pooling
將multi-scale的feature maps經過roi-pooling layer之后pooling到7x7大小的feature maps,將從不同scale pooled得到的feature maps進行concatenate,然后再利用 1x1Conv layer將feature maps resize到512x7x7的大小。
(3), context features with IRNNs

對於一個feature maps,有四個獨立的RNN對其進行上下左右四個方向的移動。

其中IRNN的update為:

為了保持IRNN的多樣性和簡單性, 固定隱層轉移矩陣為單位矩陣,可以有:

這種操作類似relu操作。
總結:
(1), paper 使用了multi-scale 進行object detection,在淺層Conv層對其feature maps進行roi-pooling, 增強了對small object的detect能力。
(2),使用了RNN對其周圍的region的信息,增強feature信息,促進classification。
