Attention-based Dropout Layer for Weakly Supervised Object Localization
2019-12-24 21:21:44
Code: https://github.com/junsukchoe/ADL
1. Background and Motivation:
弱監督物體的定位(Weakly Supervised Object Localization, WSOL)的目標是僅僅使用 image-level labels,而不用 location annotations。現有的方法挖掘並且跟蹤每一個類別的判別特征,進行物體檢測和分割。由於不同物體的 part 具有的判別能力,這些技術傾向於僅僅定位最具有區分性的區域,無法實現覆蓋到物體的整個內容。例如,行人,當外形出現驟變的時候,人臉可能是具有更好的判別能力。在這種情況下,現有的 WSOL 基礎僅能定位到 face,而不是整個 region。這種問題對於物體定位來說,是非常關鍵的。特別的,Class Activation Mapping 利用 CNN 分類器來學習判別性的特征。關鍵的想法是:the classifier with a reasonable accuracy should observe the object region to decide the class label。換句話說,判別性的特征應該和物體區域同時出現(co-occur with the object regions)。按照這個思路,他們通過跟蹤特征響應的空間分布來執行定位。不幸的是,classifier 傾向於聚焦最具有判別性的特征,以增加其分類的精度。所以,特征響應的空間空間分布也傾向於覆蓋最有判別性的物體區域,從而導致物體定位精度的降低。
最近,有很多工作都嘗試從【特征擦除】的角度,來遮擋具有強判別能力的特征區域,來改善最終的特征表達能力。從這些方法我們可以發現:the idea of erasing only the most discriminative part is effective to capture the full extent of object. 然而,這些方法總需要額外的計算資源來准確的去除這些判別性的區域。本文的目標是有效,並且高效的擦除這些區域。所以,本文提出了 Attention-based Dropout Layer,一種輕量級,但是強大的方法,使用 self-attention 機制來移除最有判別能力的區域。
2. The Proposed Methods:
上圖是本文所提出的對抗學習機制的流程圖,作者引入了 self-attention module 來定位最具有判別性的區域,然后分別進行 sigmoid 和 threshold 操作,得到 importance map 和 drop mask。然后對這兩個 map 隨機的進行選擇,然后將其與 原始的 feature map 進行空間上的相乘,得到處理后的 feature,再進行輸入到后續的網絡中。
這里,本文方法其實是將 adversarial learning 和 attention mechanism 都結合過來,進行魯棒特征的學習。
需要注意的是:本文所提出的 ADL 模塊僅僅在 training phase 使用,而不在 test phase 使用,所以,不會增加 test 的時間消耗。
為什么本文方法會 work 呢?去掉對抗模塊不談,其實就是 CNN + Attention 機制;去掉 注意力模塊,其實就是 CNN + Adversarial Learning。而 attention 和 adversarial learning 均已被大量的工作驗證了其有效性,那么,將這兩種方法隨機的進行選擇和組合,按說,的確是可以提升模型的效果。至於創新么,要啥自行車!
3. Experiments: