MRCNN網絡結構:
一.Activation maps Moudle
這個模塊中將原始的輸入圖像,經過一系列的卷積操作輸出feature map,這部分可以使用各種經典的網絡結構,這部分就是提取原始圖像的特征信息。
二.Region Adaptation Module
這部分就是給定一個Region和網絡輸出的feature map。此模塊將Region映射到feature map上,進行裁剪后,連接到Adaptive Max-Pooling,並傳到多個多層的網絡中。
注意(Region需要進行變化):
(1)每一種變化后的Region都要送到與變換對應的獨立網絡進行學習。
(2)在通過Region Adaption Module后需要將多個模型的結果拼接起來,得到最后的結果。
使用Region變換而且每中變換都要有單獨的網絡來訓練有下面2點好處:
(1)可以迫使網絡捕捉對象外觀的各個互補方面
(2)可以使結果對不准確的定位更加敏感
下面介紹Region的幾種變化:
(f)是通過將候選框縮放 0.5 倍得到的。
(g)內部 box 是將候選框縮放 0.3 倍,而外部 box縮放 0.8 倍
(h)內部 box 將候選框放大 0.5 倍,外部 box 的大小與候選框相同。
(i)內部 box 是通過將候選框縮放 0.8 倍,而外部 box 縮放 1.5 倍
(j)內部 box 是候選框本身,外部 box 是通過將候選框縮放 1.8 倍得到的。
三.semantic-segmentation ware CNN model
這個方法是將語義分割通過弱監督學習的方式用於目標檢測來感知對象,圖像分割相關的線索應該也是有助於目標檢測的,這里使用FCN來訓練前景的概率,訓練方法是在Region Adaptation Module中添加一個Region變換,這個Region變換是將候選檢測框方法1.5倍。然后將ground truth邊界框內的標記為前景,將邊界框外的標記為背景。放入FCN網絡進行訓練。在FCN被訓練完成前景分割的輔助任務后,去掉最后一個分類層,只使用剩下的部分,最后將MRCNN網絡的結果和此結果進行合並輸出。(這個就是類似於Faster-RCNN中的RPN網絡,為了找到更合適的框。)