論文參考鏈接:https://arxiv.org/abs/1705.02758
主要思想
提出了一種利用預訓練模型(Imagenet Pretrained)來做解決目標共定位(object co-localization)問題。目標共定位即給定一個圖像集,這個圖像集中大部分圖像區域都是某一個物體如飛機,則將所有飛機的區域定位出來(bounding box)。如下圖所示為該論文的pipeline,整個過程是無監督的,即隨便給定一個圖像集,它主要包含某一類物體,算法可以將圖像集中該類目標全部進行定位出來。

論文的主要貢獻是提出了DDT模塊,利用該模塊可以實現無監督的目標共定位。
DDT模塊
圖像集{\({ I_1, I_2, ... , I_n }\)},經過CNN后得到該集合的特征向量\(D_{set}\),其shape: \((n, w, h, c)\),這里我們假設圖像集的所有圖像大小相同,n代表圖像集的圖像數量,\(w\),\(h\)分別代表特征圖的寬和高,\(c\)代表特征圖的通道維數。將\(D_{set}\) reshape 成 \((n*w*h, c)\)的張量並對其進行均值歸0處理,得到\(D_{reshpae}\),表示具有\(n*w*h\)個長度為\(n\)的特征向量。
對\(D_{reshape}\)進行PCA降維, 取最大特征值對應的特征向量作為基向量\(\xi_{1}\),\(\xi_{1} \in R^c\)。
計算整個圖像集在\(\xi_{1}\)上的投影:
將\(P_{set}\) reshape回單張圖像得到{\(P_1, P_2, ... , P_n\)},則\(P_i\)大於0的區域即為co-location,在進行后續的postprocessing就可以得到最終的bounding box了。
理解
PCA找出最大的特征值對應的特征向量,將圖像的特征投影到該方向,如果值為正說明是正相關的,即圖像集的共性被找到了,這個共性的區域就是co-location。PCA的理解可以參考這個博客,這里不再贅述。
實驗結果
評價指標CorLoc
we take the correct localization (CorLoc) metric for evaluating the proposed method. CorLoc is defined as the percentage of images correctly localized according to the PASCAL-criterion.
即根據PASCAL的IOU標准(IOU>0.5)正確定位的圖像數量占總共的圖像數量的百分比。
數據集
作者在三個數據即上進行了實驗以下給出三個數據集的基本信息:
- Object Discovery dataset 連接:有三個類別,car, plane, horse; 每張圖一個目標,有部分圖是沒有目標的; 每次處理的圖像集大小為100.
- PASCAL VOC (07,12):使用trainval上的數據。對於大目標如飛機,基本上是一個目標一個圖,背景簡單;但是小目標如cup,背景復雜可能有多個不同類別目標同時出現一個圖。
- ImageNet Subsets:不包含Imagenet訓練集中的類別,用此來說明模型的泛化能力。
實驗結果

可以看到SCDA的方法結果也不錯,因為該數據集是一個目標一張圖,所以這種方法也取得了不錯結果

兩個VOC數據集上的結果,可以看到大物體的結果較好,而小物體如cup的結果較差。

這是在ImaeNet Subsets上的結果,算法也取得了比較不錯的結果。

這是與半監督學習算法的結果的對比,算法也獲得了 competitive 的結果。
量化結果


