CMP是在原始的框架上加入一個卷積層,GAP和softmax層,生成的網絡。
1. Classification:分類效果上可能會稍有下降,可以通過增加卷積層,就可以使分類准確度和原來差不多了
2. Localization:
- To generate a bounding box from the CAMs, we use a simple thresholding technique to segment the heatmap. We first segment the regions of which the value is above 20% of the max value of the CAM. Further, we observe that GoogLeNet-GAP significantly outperforms GoogLeNet on localization, despite this being reversed for classification.
- 在弱監督和全監督的實驗上,弱監督的GoogLeNet-GAP with heuristic(a top-5 error rate of 37.1%)效果非常接近全監督的AlexNet (34.2%)。給我們的啟發是繼續比較weakly-supervised GoogLeNet-GAP vs fully-supervised GoogLeNet。
3. Deep Features for Generic Localization
- 為了說明CNN深層網絡有對generic features效果明顯。we compare the performance of features from our best network, GoogLeNet-GAP, with the fc7 features from AlexNet, and ave pool from GoogLeNet. 就是說特征都是使用前面網絡的輸出結果,然后在其他訓練數據集上訓練linear SVM。Overall, we find that GoogLeNet-GAP features are competitive with the state-of-the-art as generic visual features. 就是說,從第三行可以看出-GAP的特征提取效果沒有比前兩行差也沒有好過前兩行。
- 繼續看第三行的特征 in this scenario 是不是也有informative的效果。We observe that the most discriminative regions tend to be high-lighted across all datasets. Overall, our approach is effective for generating localizable deep features for generic tasks.就是說,雖然沒有用這些數據集訓練,但是非常明顯的突出特征區域能夠被高亮找出來。綜上,我們的方法對於深度特征的定位是有效的。實驗結果如下圖。
4.1. we apply our generic localizable deep features to identifying 200 bird species in the CUB-200-2011 [27] dataset. 就是說,我們用上面的特征來識別這個數據集中200只鳥的品種。這一數據集自帶bounding box annotations的標記,可以幫助我們評估准確率。沒有使用bounding box的時候,GoogLeNet-GAP正確率可以到63.0%。有BB的時候,正確率可以到70.5%。Now, given the localization ability of our network, we can use a similar approach as Sec. 3.2 (i.e., thresholding) to first identify bird bounding boxes in both the train and test sets. We then use GoogLeNet-GAP to extract features again from the crops inside the bounding box, for training and testing. 就是說,用3.2中選閾值的方法確定定位的BB,然后咧,再在這個BB內進行訓練,這樣訓練的效果可以到67.8%。說明生成的BB能夠包括重要的位置信息。
4.2. Pattern Discovery:通過四個實驗探究CAM能不能定位更高層次的概念。結論是*-GAP可以定位其中重要的區域,即使是更高層次的概念。
Discovering informative objects in the scenes: We train a one-vs-all linear SVM for each scene category and compute the CAMs using the weights of the linear SVM. 就是說,訓練
Concept localization in weakly labeled images:一幅圖片是什么主題,我們可以從訓練的concept detector得知,受此啟發,我們可以訓練得到一個短語的concept detector。為了訓練一個短語的概念檢測器,正集合由其文本標題中包含短語的圖像組成,負集合由隨機選擇的圖像組成,在其文本標題中沒有任何相關的單詞。
Weakly supervised text detector:訓練結果是能夠精確找到一張圖中的有文字的塊,不需要bounding box annotations。
Interpreting visual question answering:We use our approach and localizable deep feature in the baseline proposed in [36] for visual question answering. 就是說我們的方法和用於定位的深層的特征用於基線視覺問題的回答,精度達55.89%。我們的方法高亮了與預測答案相關的圖片區域。
5. Visualizing Class-Specific Units:CNN不同層的卷積單元可以看成視覺概念檢測子,網絡層次越深的單元其區分能力越強。由於全連接層不能給出識別不同category的不同單元的重要性度量。Here, using GAP and the ranked softmax weight, we can directly visualize the units that are most discriminative for a given class. 就是說加一個GAP,對softmax權重排序,找出每個類別貢獻最大的卷積單元圖,並找出其中激活值最大的區域,最后對應到原圖部分。結論是From the figure,we can identify the parts of the object that are most discriminative for classification and exactly which units detect these parts.就是說,對於識別某類別來說,特定的卷積單元識別其中相對固定的部分。我們能確定的得到那個卷積單元對那個類的識別特別有用,然后再將這幾個單元組合起來識別一個包含這幾個類的一個大類。比如the units detecting sofa, table and fireplace are important to the living room.
6. 總結: 文章說使用提出的CAM,可以訓練用於分類的CNN網絡,將它用來定位要識別物體的位置。CAM類激活圖使我們可以在任何給定的圖像上可視化預測類的分數。此外,實驗部分將CAM定位技術推廣到其他視覺識別任務。即這一技術產生通用的本地化深層特征,可以幫助其他研究人員了解CNN為其任務使用的區分類別的基礎。