細粒度 - Interpretable and Accurate Fine-grained Recognition via Region Grouping - 1 - 論文學習


 

Interpretable and Accurate Fine-grained Recognition via Region Grouping

Abstract

我們提出了一種用於細粒度視覺識別的可解釋深度模型。我們的方法的核心是在深度神經網絡中整合基於區域的part發現和歸因。我們的模型使用圖像級對象標簽進行訓練,並通過對象parts的分割和識別它們對分類的貢獻,提供對其結果的解釋。為了便於在沒有直接監督的情況下學習對象parts,我們探討了對象parts發生的一個簡單先驗。我們證明,這一先驗,當結合我們基於區域的part發現和歸因,得到一個可解釋的模型,且仍然是高度准確的。我們的模型在主要的細粒度識別數據集上進行了評估,包括CUB-200[56]、CelebA[36]和iNaturalist[55]。我們的結果與最先進的分類任務方法相比是有利的,並且我們的方法在目標parts的定位上優於以前的方法。該項目網站可見https://www.biostat.wisc.edu/ ̃yli/cvpr2020-interp/

 

1. Introduction

深度模型在視覺識別方面非常成功,但其結果往往難以解釋。考慮圖1中的例子。為什么一個深度模型會認出這種鳥是“黃頭畫眉”,或者認為這個人是“在微笑”? 雖然模型的解釋可以發生在多個方面,我們認為,至少有一種解釋模型的方式是分割有意義的對象parts區域(例如,人臉的眼睛,嘴,臉頰,額頭和脖子),並進一步識別他們對決策的貢獻(例如,對於微笑來說,嘴巴區域更具識別度)。我們如何設計一個可解釋的深度模型,學習發現對象parts,並估計它們對視覺識別的重要性?

事實證明,parts發現是在沒有明確的part注釋監督的情況下學習對象parts,其本身就是一個具有挑戰性的問題。首先第一步,我們將重點放在細粒度識別任務上,即屬於同一超類別的parts共享共同的視覺模式。例如,大多數鳥類的尾巴都有相似的形狀。我們的主要觀察結果是,卷積網絡的特征可以將像素分組成一組視覺上一致的區域[28,25],從中選擇一個判別段子集進行識別[33,32,11]。只有對象標簽作為指導,我們希望分組將有助於找到視覺上不同的部分,而選擇過程將識別它們對分類的貢獻。

我們基於區域的part發現的一個主要挑戰是沒有明確的監控信號來定義part區域。因此,必須加入目標parts的先驗知識,以便於學習。我們工作的核心創新是對目標parts的一個簡單先驗的探索:給定單個圖像,一個part的出現遵循U形分布。例如,鳥的頭很可能出現在大多數鳥的圖像中,而鳥的腿可能只出現在一些圖像中。令人驚訝的是,我們證明了這個簡單的先驗,當結合我們基於區域的part發現,可以得到有意義的目標parts的識別。更重要的是,所得到的可解釋深度模型仍然是高度精確的。最近的一些方法已經被開發用於在細粒度分類中發現parts,但沒有一個考慮到我們使用的先驗。

為此,我們提出了可解釋的深度模型用於細粒度分類。具體來說,我們的模型學習了一個對象parts的字典,基於這個字典,一個2D特征map可以被分成“part” segments。這是通過在一個學習到的字典中比較像素特征和part表征來完成的。此外,基於區域的特征從結果segments池化得到,然后通過注意機制選擇用於分類的segments子集。重要的是,在訓練過程中,我們對每個part的出現執行U形先驗分布。這是通過減小part發生在我們的先驗分布和的經驗分布之間的Earth Mover’s Distance來實現的。在訓練過程中,我們的模型僅由帶有我們所提出的正則化項的對象標簽來監督。在測試過程中,我們的模型聯合輸出對象parts的segments、segments parts的重要性和預測的標簽。因此,我們模型的解釋性是通過part segmentation和每個part對分類的貢獻得到的。

為了評估我們的模型,我們使用三個細粒度識別數據集進行了廣泛的實驗,以提高可解釋性和准確性。為了量化可解釋性,我們將模型的輸出區域segments與標注的對象parts進行比較。為了准確性,我們報告用於細粒度分類的標准度量。在較小規模的數據集上,如CUB-200[36]和CelebA[56]中,我們的模型可以找到定位誤差較低的鳥和臉的parts,同時在精度方面優於最先進的方法。在更有挑戰性的iNaturalist數據集[55]上,我們的模型提高了強基線網絡(ResNet101) 5.7%的精度,減少了目標定位誤差,並展示了part發現好的定性結果。

 

2. Related Work

人們對解釋深層模型產生了興趣。我們的工作重點是遵循基於區域的識別范式去開發可解釋的深度模型,用於細粒度分類。我們簡要回顧了可解釋深度學習、基於part的細粒度分類以及最近用於區域分割和基於區域識別的深度模型的相關文獻。

Visualizing and Understanding Deep Networks.  最近的一些研究成果已經被開發出來,以可視化和理解訓練有素的深層網絡。這些事后方法中的許多[39,17,61,15,70,51]側重於開發激活映射和/或訓練網絡中的過濾器權值的可視化工具。其他研究試圖在預先訓練的網絡下識別輸入圖像中有區別性的區域[54,48,51,18,61,43,4,71,38]。除了定性的結果,Bau等人[4]提出了一個定量基准,將網絡單元的激活與人類注釋的概念mask進行比較。另一個方向是學習一個簡單的模型,如線性分類器[45]或決策樹[13],來模仿訓練過的網絡的行為,從而提供目標模型輸出的解釋。我們的工作在解釋深層模型方面有着相同的動機,但是我們將解釋融入到模型的學習中。與[4]類似,我們也使用人類注釋的對象parts來量化我們的網絡的可解釋性。

Interpretable Deep Models.  可解釋性可以用深度模型來構建。許多最近的作品都開發了可以通過其設計解釋的深度模型。例如,Zhang等人[66]設計了一種正則化方法,鼓勵高級卷積層中的每個濾波器聚焦於特定的目標部分。Brendel等人[6]提出了BagNet,以小圖像塊作為輸入,然后后面跟着用於整個圖像分類的bag-of-feature (BoF)表示。BagNet可以自然地將決策歸因於局部區域,從而有助於解釋決策過程。Alvarez-Melis和Jaakkola[40]提出對全局圖像特征的基礎進行相關性評分。另外,可以為可解釋的模型設計新的網絡體系結構。例如,Capsule網絡[47]用向量代替常用的標量激活,后者被認為代表實體,如對象或對象部分。在[53]中,通過加強從卷積單元到最終預測的稀疏連接,在傳統CNNs上進一步擴展了相關的思想。

最相關的工作是Chen等人的[8]。他們提議學習網絡中目標parts的原型。因此,模型的決策取決於在輸入圖像中找到的原型的識別。與他們的工作類似,我們的模型也試圖明確地編碼對象part的概念。然而,我們的工作與[8]在兩個關鍵方面有所不同:(1)我們采用區域分組的方法對圖像分割進行解釋;(2)模型的學習通過對目標parts發生的較強先驗進行正則化。

Part Discovery for Fine-grained Recognition.  識別有區別性的目標parts對於細粒度分類非常重要[50,49,58,67]。例如,可以使用邊界框或labdmark注釋來學習對象parts,以便進行細粒度分類[24,34,41,62,64]。為了避免對對象parts進行代價高昂的注釋,最近有幾部作品關注於使用深度模型進行無監督或弱監督的part學習。Xiao等人[58]對卷積濾波器進行光譜聚類,尋找parts的代表性濾波器。Wang等人[57]提出學習一組卷積濾波器來捕捉類特定的對象parts。此外,注意力模式也被廣泛地用於學習parts。Liu等人[35]利用強化學習選擇區域proposals進行細粒度分類。Zheng等[68]將特征通道分組來尋找parts及其注意,將具有相似激活模式的通道作為part候選。

與以前的工作類似,我們的工作也試圖找到parts,並確定它們對於細粒度分類的重要性。然而,我們的工作不同於以前的工作,考慮了對象parts發生的顯式正則化。此外,我們在part發現時還考慮了一個大規模的數據集(iNaturalist[55])。在實驗中,我們將在識別精度和part定位誤差兩方面與之前的方法進行比較。

Weakly-supervised Segmentation of Object Parts. 我們的工作也與先前的弱監督或無監督分割對象parts的工作有關。Zhang等人[65]從一個預先訓練的CNN中提取激活,以在圖中表示目標parts。他們對parts的學習是由一些parts注釋監督的。Collins等人[12]對一個預先訓練好的CNN進行了非負矩陣分解,其中每個分量定義了圖像的一段。Jampani等人[28]提出了一種迭代深度模型來學習超像素段。最近,Hung等人[25]提出了一個深度模型,它包含了強先驗,如空間一致性、旋轉不變性、語義一致性和顯著性,用於對象parts的無監督學習。我們的工作受到了[25]的啟發,在[25]中,我們還探索了新的正則化來學習分割對象parts。然而,我們在細粒度分類的背景下考慮弱監督的part分割。此外,我們探索了一個非常不同的part發生的先驗。

Region-based Recognition.  最后,我們的模型將分割和分類結合到一個深度模型中,從而與基於區域的識別[19,59,31,1]或組合學習[52]關聯。最近,針對基於區域的識別設計深度模型的研究取得了進展。例如,Li等人[33]提出將CNN的特征分組成區域圖,然后通過圖卷積網絡進行視覺識別。Chen等人[11]也探索了類似的思路。最近,Li等人[32]提出了一種深度模型,利用期望最大化,聯合改進了區域的分組和標記。此外,Arslan[3]提出利用預定義區域構建圖神經網絡進行腦圖像分類。我們的模型使用與[33,11,32]相似的思想對CNN特征進行分組。然而,這些前人的著作都沒有關注分組的質量,因此不能直接用於解釋。

 

3. Method

考慮一組N個2D圖像特征maps  ,以及其類別標簽,其中是來自卷積網絡的2D圖像平面HxW上的D維特征,是細粒度類別的圖像級標簽。我們模型的目標是學習一個part字典和一個用於細粒度分類的決策函數。具體說來,,其中的每個列向量表示一個對象part的概念。表示的參數。以特征maps 和part字典 D作為輸入去預測標簽。如圖2所示,概述了整個模型。為了清晰起見,我們有時去掉下標n

具體說來,假設函數能夠分解為三個部分:

  • Part Segmentation. 通過對比feature maps 和part dictionary 去創建一個soft assignment map 。通過使用一個分組函數去得到它,即
  • Region Feature Extraction and Attribution.  基於assignment map 和part dictionary ,region features 從feature maps 中池化得到。進一步計算一個注意力向量,其中每個元素為一個part segment提供一個重要性分數。式子為
  • Attention Based Classification.  region features 被region attention 重新加權,后面跟着一個線性分類器用於y決策。通過,即實現

Regularization of Part Occurrence. 上面描述了我們對的設計,接下來說明學習的主要挑戰。因為唯一的監督信號是y,保證字典能夠捕獲到有意義的對象parts是很有挑戰的。我們的主要假設是我們能夠通過強制 一組圖像特征中的每個part 的出現都遵循一個先驗分布去正則化學習。具體來說就死,給定表示出現在 的part 的條件概率。我們假設遵循U形分布,就像一個概率二進制開關,我們可以控制“開”和“關”的概率。例如,在CUB-200鳥類數據集中,鳥類的所有parts都顯示在大多數鳥類圖像中,因此開關幾乎總是打開的。相比之下,在更有挑戰性的iNaturalist數據集上,一個物體的part只在一定數量的類別中被激活,因此開關可能只在一些圖像中被激活。

 

3.1. Part Segmentation and Regularization

接下來說明part segmentation的細節,以及如何正則化parts的出現

Part Assignment.  我們采用以前工作[33,11]提出的projection unit。更詳細說來,讓表示assignment matrix 的一個元素,其中i、j表示2D位置的索引,k表示parts。表示中在位置(i,j)的特征向量被分配給中第k個part 的概率。計算公式為:

根據式子可見,與part字典越像,其被分配的概率越大

其中是一個用於每個part  的可學習的平滑因子。由於softmax歸一化,所以。除此之外,我們集合所有的assignment vectors 到我們的part assignment map 

Part Occurrence. 給定一個part assignment map,我們下一步就是檢測每個part 的出現。一個簡單的part 檢測器能夠在第k個assignment map 上使用max pooling操作實現。可是,我們發現在池化前平滑assignment map是有益的,即使用帶有一個小

bandwidth的高斯核。該平滑操作幫助減小了feature map上的異常值。因此,我們的part 檢測器被定義為,其中是一個2D高斯核,* 是一個卷積操作。范圍在(0,1)。此外,k個part檢測器的輸出被串聯為一個所有parts的發生向量。(其實就t1就是從第1個HxW的assignment map中用Max pooling得到被分配給第1個part的最大概率,對應的t2、t3...tk就是分配給第2、3、k個part的最大概率,所以發生向量即k個最大概率值

Regularization of Part Occurrence. 我們的核心想法是去正則化每個part的出現。通過強迫part出現的經驗分布於U形先驗分布對齊。更具體來說,就是給定N個樣本,即從整體數據集中采樣得到的mini-batch,我們首先通過串聯所有出現向量成一個矩陣來估計經驗分布。而且,我們假設一個先驗分布是已知的,如一個Beta分布。我們提出使用1D Wassertein distance,即Earth-Mover distance去對齊,如下所示:

其中是用於經驗和先驗分布的Cumulative Distribution Functions (CDFs)。z的區間為[0,1]

在mini-batch訓練中,Wassertein distance能夠通過使用mini-batch中樣本的總和去替換整數來近似得到,變為的L1距離。在實踐中,我們發現使用對數函數來rescale CDFs的逆函數是有幫助的,這提高了訓練的穩定性。

這個就是正則化損失

其中(size N)第k行向量的有序版本(升序),的第i 個元素。ε是一個用於數值穩定的小值。使用對數rescaling

解決了等式(1)softmax函數中的梯度消失問題。即使一個part 離當前mini-batch所有特征向量很遠,即等式(1)中的值很小,因為rescaling,也能得到一個非零的梯度。

我們注意到有不同的方法來對齊兩個1D分布。我們之前已經通過使用像[5]中提出的shaping CDFs的方法去用Crame'r-von Mises標准進行了實驗。然而,我們發現我們選擇的1D Wasserstein 在數據集上產生了更穩健的結果。

 

3.2. Region Feature Extraction and Attribution

給定了part分配,我們的下一步是從每個區域匯集特征。這是通過使用非線性特征編碼方案[33,29,42,2]來實現的,公式如下:

因此,是分配給part 的來自像素的區域特征。將合並在一起,得到來自輸入特征maps的區域特征集。我們進一步使用一個有着幾個殘差塊的子網絡去進一步轉換, 每個殘差塊都是一個包含三個1x1卷積+BN+ReLU的bottleneck。因此得到的轉換特征為

然后,一個注意力模塊附着在之上去預測每個區域的重要性。這通過一個子網絡實現,由給定,其中包含多個1x1卷積+BN+ReLU。得到的注意力還被進一步用於分類。

 

3.3. Attention Based Classification

最后,我們使用注意力向量重新加權轉換后的區域特征,后面接着一個線性分類器。因此,最后的預測為:

其中是C-分類的線性分類器的權重。注意,這里注意力作為區域特征的一個調制器。因此中大的值表示其為分類中相對重要的區域

Pixel Attribution.給定注意力,我們能夠輕易地后向追蹤特征map中每個像素的貢獻。能夠通過使用來實現,其中僅僅是part分配map 的reshaped版本。

 

3.4. Implementation

接下來,我們將說明我們的損失功能,網絡架構,以及訓練和推斷的實現細節。

Loss Function.  我們的模型通過最小化分類的交叉熵損失和等式(2)中用於part正則化的基於正則化損失的1D Wasserstein distance進行訓練。在我們的實驗中,我們改變了平衡損失項和用於Wasserstein距離的先驗Beta分布的權重。

Network Architecture.  我們用我們提出的模塊替換了基線CNN (ResNet101[23])的最后一個卷積塊。我們粗略地將最終模型中的參數數量與基線相匹配。

Training and Inference.  我們對所有數據集使用standard mini-batch SGD。由於不同的任務,超參數在數據集上的選擇是不同的,並將在實驗中討論。我們應用了包括隨機裁剪、隨機水平翻轉和顏色抖動在內的數據增強,並采用了[23]中學習速率衰減的方法。我們模型中的卷積層是從ImageNet預訓練的模型初始化的。新的參數,包括part dictionary,遵循[22]進行隨機初始化。所有參數在目標數據集上共同學習。在所有實驗中,除非另行通知,我們將報告使用 single center crop的結果。

 

4. Experiments and Results

我們現在描述我們的實驗並討論結果。我們首先介紹實驗中使用的數據集和指標。然后,我們描述在個別數據集上我們的實驗和結果,然后進行消融研究。所有實驗的結果都報告了准確性和可解釋性,並與最新的方法進行了比較。

Datasets.  實驗選取了三個細粒度識別數據集CelebA[36]、CUB-200-2011[56]和iNaturalist 2017[55]。這些數據集跨越一系列任務和規模。CelebA是一種用於人臉屬性識別和人臉landmark檢測的中等尺度數據集。CUB-200是一個鳥類物種識別的小型數據集,還附帶鳥類關鍵點注釋。最后,innaturalist 2017是一個用於細粒度物種識別和檢測的大型數據集,涵蓋了從哺乳動物到植物的5000多個類別。

Evaluation Metric.  我們為細粒度視覺識別評估我們模型的准確性和可解釋性。為了精確,我們報告標准實例級或平均類精度,就像以前為細粒度分類考慮的那樣。作為可解釋性的代理,我們使用帶注釋的對象landmark來測量對象part定位錯誤,因為我們的模型是設計來發現對象part的。這種定位誤差之前已經在part分割模型中考慮過,如Hung等[25]。對於數據集,例如iNaturalist 2017,不附帶part注釋,我們遵循Pointing Game的協議[63],並使用注釋的對象邊界框報告對象定位錯誤。Pointing Game被廣泛用於評價可解釋的深度模型[63,48,43]。

具體來說,在CelebA和CUB-200上報告了part的定位錯誤。遵循[25]中類似的協議,我們通過學習線性回歸模型將assignment maps轉換為一組landmark位置。回歸模型將part assignment的2D幾何中心映射到二維對象landmarks中。將預測的landmarks與測試集上的ground-truth進行比較。我們報告預測與ground-truth之間的歸一化平均L2距離。對iNaturalist 2017報道了Pointing Game的結果。我們通過計算輸出注意圖的峰值位置位於ground-truth對象邊界框之外的情況來計算錯誤率。

 

4.1. Results on CelebA

Dataset. CelebA[36]是一個人臉屬性和landmark檢測數據集,包含從互聯網上收集的202599張名人人臉圖像。每個人臉圖像都被標注了40個人臉屬性和5個landmark位置(眼睛、噪聲和嘴角)。我們考慮對[36,25]中的數據進行兩種不同的split。第一次從[36]split的圖像包括162770張、19867張和19962張,分別用於訓練、驗證和測試,並用於評估人臉屬性識別。此split中的人臉對齊到圖像中心。第二次從[25]split的圖像有45,609張用於訓練,5379張用於擬合線性回歸器,283張用於測試。第二次split用於報告part定位錯誤。人臉在這次split中沒有對齊。

Implementation Details. 我們在使用相同架構的兩個split上訓練了兩個模型。我們為每個人臉屬性附加了一個單獨的基於注意力的二元分類頭,因為這些屬性並不相互排斥。對於屬性識別,我們的模型在訓練集上進行訓練,在測試集上進行評估。驗證集用於超參數的選擇。對於landmark定位,我們遵循了[25]的訓練程序。我們的模型訓練使用5e-3的學習速率,batch大小為32,30個epochs權重衰減為1e-4。我們將兩個損失項之間的權重設為10:1,並使用α=1和β=1e-3的先驗Beta分布(接近於p =1的伯努利方程)。所有輸入圖像都被調整為256×256,並在不裁剪的情況下輸入到模型中。用了parts為9的字典。在報告局部定位誤差時,我們通過 inter-ocular距離[25]對L2距離進行歸一化。

Recognition Results (Accuracy). 我們對屬性識別的結果總結如表1所示。我們將我們的結果與最先進的方法[36,46,37,20,30,21,7]以及基線ResNet101(在ImageNet上預先訓練)進行比較。令人驚訝的是,與以前的許多方法相比,基線ResNet101已經達到了類似甚至更高的精度,包括那些需要輔助人臉分析的方法[30,21]。我們的模型與強大的ResNet101基線表現相當。唯一明顯優於我們的模型和ResNet101基線的方法是[7],它使用了額外的人臉身份標簽。總而言之,我們的模型達到了最先進的精度。

 

Localization Results (Interpretability). 我們進一步評估面部landmark定位結果,如表2所示。我們的結果與最新的DFF[12]和SCOPS[25]方法進行了比較。DFF對預訓練的CNN (VGG1)的特征圖進行非負矩陣分解,以生成part分割。SCOPS在用於目標part分割的自監督訓練中探討了空間一致性,旋轉不變性,語義一致性和視覺顯著性。我們的模型在定位誤差方面優於這兩種方法,與SCOPS和DFF相比,分別實現了6.6%和21.9%的誤差減少。這些結果表明,我們的模型具有較高的定位精度,從而支持我們的模型的可解釋性。

 

Visualization.  我們的模型在人臉屬性識別方面取得了最先進的成果,並為人臉landmark定位提供了新的能力。我們進一步可視化我們模型中的assignment maps,並將其與圖3中的DFF[12]和SCOPS[25]進行比較。此外,我們在圖4中顯示了我們模型中的attention maps。注意,我們的attention maps是特定於屬性的,因為我們為每個屬性使用了單獨的分類頭。這些定性結果表明,我們的模型能夠將人臉分割成有意義的part區域(例如,頭發、額頭、眼睛、鼻子、嘴巴和脖子),並關注那些對屬性識別具有判別能力的區域(例如,眼睛區域代表“窄眼睛”,頭發區域代表“黑頭發”)。 

Dataset.  Caltech-UCSD Birds-200-2011[56] (CUB-200)是一個用於細粒度鳥類物種識別的小尺度數據集。CUB-200包含5,994/5,794張圖片,用於訓練/測試來自200種不同的鳥類。每張圖片都附有一個物種標簽、15個鳥類landmark和一個鳥類的邊界框。

Implementation Details.  我們使用學習率為1e-3、batch大小為32、權重衰減為5e-4的方法訓練了一個分類和landmar定位的單一模型,訓練150個epochs。我們將兩個損失項之間的權重設為2:1,使用與CelebA相同的先驗分布和5個parts的字典。我們通過將最短邊縮放到448來調整輸入圖像的大小,並隨機裁剪448x448的區域用於訓練。當報告part定位錯誤時,我們使用鳥的邊界框大小來標准化L2距離,類似於[25]。

Recognition Results (Accuracy).  我們在表3中給出了我們的識別精度結果,並將其與最先進的方法進行了比較[27,14,68,16,9,57,60,10,69]。同樣,基線ResNet101已經在CUB-200上實現了最先進的結果。我們的模型略低於ResNet101(-0.4%),表現與先前基於part的模型(如MA-CNN[68])相當。

 

Localization Results (Interpretability). 此外,我們評估了part定位誤差,並將我們的結果與DFF[12]和SCOPS[25]進行比較。為了進行公平的比較,我們遵循[25]報告前三個類別的錯誤,如表4所示。同樣,我們的模型顯著降低了定位誤差(2.9%-6.2%)。當擬合所有200個類別時,我們的模型平均定位誤差為11.51%。這些結果為我們模型的可解釋性提供了進一步的證據。

 

Visualization.  我們還將模型中的assignment maps 和attention maps可視化,如圖5所示。我們的模型證明了發現鳥類的連貫部分(例如,喙/腿,頭,翅膀/尾巴,身體)和選擇重要區域(喙/腿和翅膀/尾巴)來識別物種的能力。

 

4.3. Results on iNaturalist 2017

Dataset. iNaturalist 2017[56]是一個用於細粒度物種識別的大規模數據集。它包含用於訓練和測試的579184和95986張圖,從5089個物種組織成13個超級類別。有些圖像還帶有對象的邊框注釋。由於數據集不包括part注釋,我們報告Pointing Game的結果,以評估我們的模型的可解釋性。這個數據集對於挖掘有意義的對象parts非常具有挑戰性,因為不同超類別的對象具有截然不同的視覺外觀(例如,植物和哺乳動物)。

Implementation Details.  我們訓練一個單一的模型進行分類和定位。我們的模型訓練使用的學習速率為1e-3,batch大小為128和在75個epochs內權重衰減為5e-4。在訓練過程中,我們通過將最短邊縮放到320來調整輸入圖像的大小,並隨機裁剪224x224的區域。我們將兩個損失項之間的權重設為10:1。采用8個parts的字典,考慮α=2e-3和β=1e-3的先驗Beta分布。我們還通過將完整的圖像(最短邊320)輸入到模型中探索了全卷積測試。

Recognition Results (Accuracy).  表5總結了我們的結果,並將其與基線ResNet101模型以及SSN[44]和TASN等最新方法進行了比較[69]。SSN和TASN都利用基於注意力的上采樣放大有判別力的區域進行分類。

 

 

與CelebA和CUB-200不同,基線ResNet101的結果比最先進的模型(SSN和TASN)差得多。我們的模型至少使ResNet101基線值提高了3.7%。使用test time augmentation(全卷積測試)進一步提高了2%的結果。然而,我們的模型仍然比TASN(-1.4%)差。我們推測,我們的模型可以使用類似SSN和TASN的上采樣機制進一步提高精度。

Localization Results (Interpretability). 此外,我們在表6中報告了Pointing Game的結果。我們的結果進一步與使用基線ResNet101模型的顯著性方法進行比較,包括CAM/Grad-CAM[711,48]和Guided Grad-CAM[48]。注意,當從一個ResNet的最后一個卷積層可視化特征時,CAM和Grad--CAM是相同的。我們的模型實現了最低的定位誤差(CAM/Grad-CAM和Guided Grad-CAM的改進分別為4.2%和0.6%)。

 

最后,assignment和attention maps的可視化結果可見圖6和圖7。

 

4.4. Ablation Study, Limitation and Discussion

Ablation.  我們對CelebA進行消融研究,以評估我們的模型組件。我們的研究考慮了兩種變體,一種沒有正則化,一種沒有注意力。表7顯示了來自[25]split的識別精度和定位誤差。所有變體的精度都非常相似,但我們的正則化極大地提高了定位精度(3.9%)。在無注意力的情況下,我們的模型局部定位性能稍好,但與完整模型相比,缺乏區域和像素屬性的關鍵能力。我們的完整模型對所有landmarks的定位誤差都很小,分別為7.4%、7.5%、9.1%、9.3%和8.6%的左眼、右眼、鼻子、左嘴角和右嘴角。

Limitation and Discussion.  我們的模型在iNaturalist數據集上發現了很多失敗案例,如圖6和7所示。我們的模型可能無法將像素分組到part區域,有時產生不正確的saliency maps。我們推測這些失敗案例是由我們之前的Beta分布產生的。在iNaturalist上有超過5K的細粒度類別,所有part的單一U型分布可能無法描述part的發生。此外,我們的模型沒有對part之間的相互作用進行建模,並且需要一個中等到大的batch來估計part發生的經驗分布。因此,一個有希望的未來方向是探索對象parts的更好先驗。

 

5. Conclusion

我們提出了一個用於細粒度分類的可解釋的深度模型。我們的模型利用了一個新的物體parts的發生先驗,並將基於區域的parts發現和歸因整合到一個深度網絡中。僅使用圖像級標簽訓練,我們的模型可以預測目標parts的 assignment map、part區域的attention map和目標標簽,對目標分類和目標part定位有較好的效果。我們相信我們的模型向可解釋深度學習和細粒度視覺識別邁出了堅實的一步。

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM