帶你讀AI論文丨用於細粒度分類的Transformer結構—TransFG


摘要:本文解讀了《TransFG: A Transformer Architecture for Fine-grained Recognition》,該論文針對細粒度分類任務,提出了對應的TransFG。

本文分享自華為雲社區《論文解讀系列二十:用於細粒度分類的Transformer結構—TransFG》,作者: BigDragon 。

論文地址:https://arxiv.org/abs/2103.07976

GitHub地址:https://github.com/TACJu/TransFG

近來,細粒度分類研究工作主要集中在如何定位差異性圖片區域,以此提高網絡捕捉微小差異的能力,而大部分工作主要通過使用不同的基模型來提取特定區域的特征,但這種方式會使流程復雜化,並從特定區域提取出大量冗余特征。因此,本文將所有原始注意力權重整合至注意力映射中,以此來指導模型高效地選取差異性圖片區域,提出用於細粒度分類的Transformer結構TransFG。

圖1 TransFG 結構

1 問題定義

細粒度分類任務主要以定位方法及特征編碼方法為主,定位方法主要通過定位差異性局部區域來進行分類,而特征編碼方法通過高維信息或尋找差異對之間關系來學習更多信息。TransFG通過整合注意力權重,計算區域的對比損失,來定位差異性局部區域,以此進行細粒度分類。

2 TransFG

2.1 圖像序列化

原有Vision Transformer將圖片分割為相互不重疊的patch,但這會損害局部相鄰結構,可能會導致差異性圖像區域被分離。因此,為解決這個問題,本文采用滑動窗口產生重疊patch,所產生的patch數量N根據公式(1)進行計算。其中,H、W分別為圖像長寬,P為圖像patch尺寸,S為滑動窗口步長。

2.2 Patch Embedding 和 Transformer Encoder

TransFG在Patch Embedding 和 Transformer Encoder兩個模塊遵循了原有ViT的形式,並未進行改動

2.3 局部選取模塊(PSM)

圖2 TransFG的注意力映射及所選取的token

首先假設模型中具有K個自注意首部,各層注意力權重如公式(2)所示,其中al指第l層K個首部注意力權重。

如公式(3)所示,將所有層的注意力權重進行矩陣相乘,afinal 捕捉了圖像信息從輸入到更深層的整個過程,相對於原有ViT,包含了更多信息,更加有助於選取具有識別性的區域

選取afinal中K個不同注意力首部的最大值A1、A2、…、AK,並將其與分類token進行拼接,其結果如公式(4)所示。該步驟不僅保留了全局信息,也讓模型更加關注與不同類別之間的微小差異。

2.4 對比損失

如公式(5)所示,對比損失的目標是最小化不同類別對應的分類tokens的相似度,並最大化相同類別對應的分類tokens的相似度。其中,為減少loss被簡單負樣本影響,采用α來控制對loss有貢獻的負樣本對。

3 實驗結果

TranFG在CUB-200-2011、Stanford Cars、Stanford Dogs、NABirds及iNat2017五個數據集進行了驗證,並在CUB-200-2011、Standford Dogs、NABirds數據集上取得了SOTA結果。

4. 總結

  • 在圖像序列化部分,相對於采用非重疊的patch分割方法,采用重疊方法的精度提高了0.2%
  • PSM整合所有注意力權重,保留全局信息,讓模型更加關注於不同類別的微小差別,讓模型精度提高了0.7%。
  • 采用對比損失函數,能減少不同類別的相似度,提高相同類別的相似度,讓模型精度提高了0.4%-0.5%。

參考文獻

[1] He, Ju, et al. "TransFG: A Transformer Architecture for Fine-grained Recognition." arXiv preprint arXiv:2103.07976 (2021).

想了解更多的AI技術干貨,歡迎上華為雲的AI專區,目前有AI編程Python等六大實戰營供大家免費學習

 

點擊關注,第一時間了解華為雲新鮮技術~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM