一些文章和他們講的東西的整理


Symbiotic Segmentation and Part Localization for Fine-Grained Categorization  講了利用圖像分割和局部定位的方法分離出圖像前景,來提高分類結果。

Deep Domain Adaptation for Describing People Based on Fine-Grained Clothing Attributes  沒細看,講的衣服的分類的。

Nonparametric Part Transfer for Fine-grained Recognition  用無參數局部轉移的方法來提高識別率。

Hypercolumns for Object Segmentation and Fine-grained Localization  利用較下層的cnn網絡的信息來提供空間信息,來提高分類結果。

Fine-Grained Recognition without Part Annotations  講他這個文章不用局部注釋和關鍵點,效果很好。

Deep LAC: Deep Localization, Alignment and Classification for Fine-grained Recognition  構造一個檢測、對齊、分類與一體的神經網絡,來進行細粒度圖像分類。

The Application of Two-level Attention Models in Deep Convolutional Neural Network for Fine-grained Image Classification  這篇很重要,摘要部分很多可以借用,另外圖標上有很多數據,可以借鑒。

上面是CVPR2015和細粒度有關的文章,下面是2016。

1. Picking Deep Filter Responses for Fine-grained Image Recognition[1]這篇文章是來自上海交通大學Xiaopeng Zhang等人的工作,該文章提出了一種對深度網絡中的filter進行挑選的方法,基於挑選的filter的結果構建復雜特征表達。文章中提出的方法框架如下圖所示:

整個方案分兩步走:首先,利用深度filter的選擇性來挖掘對於某些模式敏感的filter (比如鳥的喙與腿,如下圖所示)從而得到一個weak的Part Detector。進而通過該Weak Detector作為初始來訓練一個Discriminative Part Detector;
第二步便是利用第一步的Part Detector進行圖像patch的檢測然后提取deep descriptors,利用提出的Spatially Weighted Fisher Vector (SWFV)對deep descriptors進行pooling,從而得到圖像SWFV-CNN特征描述。文章中報告的結果表明,利用該方法在CUB-200-2011和Stanford Dogs兩個數據集上都取得了較優異的成果。值得一提的是,該方法並未利用人工標注信息(bbox+parts),在測試集上相比於利用標注信息的方法有了顯著提高。該方法並非采用End-to-End的結構,在中間的環節如Spatial weighting, FV pooling需要針對數據分布的不同而做細致調整。
2. SPDA-CNN: Unifying Semantic Part Detection and Abstraction for Fine-grained Recognition[2]這篇文章是來自羅格斯大學的Han Zhang等人的工作。由題目可知與上一篇文章一樣,本文的作者也關注到了富有語義的局部(利用Part,Part,Part,重要事情強調三遍),作者不滿足於CUB-2011提供的head和body的定位結果,提出了small semantic parts 生成的方法。結果表明,充分利用了更多的small parts在fine-grained的問題上可以更好的提高分類結果,下面簡單介紹作者的思路。整個系統由兩個子網絡組成,一個是Detection網絡,另一個是Classification網絡,方法流程如下圖所示。
與已有的一些方法不同,作者並沒有使用Region+CNN+SVM這樣的框架,而是將Detection與Classification構建了一個End-to-End的網絡。在Part Proposal階段,作者利用了全局形狀與幾何限制條件,通過引入這樣的先驗知識,生成的proposals與傳統方法相比減少了一個數量級(200 vs 2000)。然后基於proposal的結果利用Fast-RCNN生成Head,Back,Belly,Breast,Leg,Wing,Tail七個Parts,部分檢測結果如下圖所示,結果明顯優於Selective Search。
總的來說,文章作者基於鳥的形狀特性,在Proposal生成階段構造了幾何限制條件,並基於此提出了一種Part Detection的方法。而Parts在鳥類Fine-Grained分類問題上對結果的提高有明顯幫助。作者將Part Detection和Classification結合成一個End-to-End的結構,同時進行訓練與測試,取得了優異的結果。
3.Part-Stacked CNN for Fine-Grained Visual Categorization[3]這篇文章是來自悉尼科技大學Shaoli Huang等人的工作,與前兩篇文章的出發點類似,本篇文章也是在Parts上尋找Fine-Grained的線索,但與前兩篇文章相比,在框架中人工的參與更少。同其它Fine-Grained分類任務相似,這篇文章也采用兩步走,即object parts localization (where pathway)和classification (what pathway),值得一提的是在part定位過程中,利用了FCN(Fully Convolutional Network)。方法的流程如下圖所示:
方法的特點在於,在分類階段利用了Two-stream的結構在object-level和part-level進行特征提取,進而對feature map進行拼接,由此構建包含有全局與局部的特征描述。作者命名該架構為PS-CNN,為了兼顧性能與效率,作者采用基於AlexNet的CNN模型。在object-level與part-level特征拼接過程中,由於兩部分輸入數據尺度存在差異,因此需要在feature map中進行尺度調整。對於Object-level,抽取了pool5層的feature map(6×6),而Part-level則提取了conv5的feature map(27×27),並在conv5的基礎上根據part定位的結果進行crop得到相應的feature map(6×6)。最后拼接過的feature map送入全連接層,得到4096維的特征向量。
由此我們可以發現,定位的part直接影響特征的描述結果,那么part-localization網絡的結果如何呢?下圖給出了測試集上的部分結果
而且最終分類結果表明,利用了part的結果要遠遠優於僅適用BBox的結果(76.7% vs 69%),當然本文章所給出的啟發並不局限於鳥類的分類。文章所提出的PS-CNN架構不僅可以用於鳥類等Fine-grained任務,還可以用於別的分類任務,框架比較general,而且在測試階段在GPU K80平台上可以達到20 frames/sec,滿足實時性的要求。
4. Mining Discriminative Triplets of Patches for Fine-Grained Classification[4]除了以上幾種基於深度框架的Fine-Grained方法之外,來自馬里蘭大學的Yaming Wang等人提出了挖掘mid-level patch 的一種方法 [4],文章中提出了基於mid-level representation的特征構建方法並結合SVM分類器進行分類,提出了一種基於順序與形狀條件限制的Triplet Mining方法。其中所謂的Triplets與兩種限制如下圖所示:
A、B、C可以被看做patch的Appearance model,利用順序限制(左)和形狀限制(右)進行中層特征的表示,構建了Bag of Triplets特征表達,方法流程如下圖所示
文章的實驗主要在車輛數據集(BMVC-14, Cars-196),實驗結果中表明,僅僅使用HOG特征的分類准確率就超過了fine-tune的AlexNet。在結合深度特征的基礎上,該方法取得了state-of-the-art的結果。這篇文章並沒有采用End-to-End的結構,而是挖掘Mid-level中有信息價值的表達,除了手動挖掘,深度網絡是否也可以自動挖掘呢?這是否可以對我們做Fine-Grained任務引發一些思考呢?
5. 應對Fine-grained訓練數據有限等問題的系列工作在Fine-Grained問題中,現在面臨很多的難題,比如常見的FGVC數據集數量有限,而這些數據對於AlexNet、VGGNet、GoogleNet和ResNet等深度網絡來說無法有效訓練得到很好的結果;種類數目繁多,單單以花為例,全世界已發現的品種有超過400000,如果將全連接層節點數設置這么大的話,訓練難度可想而知;除此之外,Fine-Grained還有類內差異大,類間差異小等情況。對於這些問題的解決,來自NEC實驗室的Feng Zhou(http://f-zhou.com/)等人在本次CVPR中提出了一系列的方法:Fine-grained Image Classification by Exploring Bipartite-Graph Labels[5]、Embedding Label Structures for Fine-Grained Feature Representation[6]、Fine-grained Categorization and Dataset Bootstrapping using Deep Metric Learning with Humans in the Loop[7],在線Demo地址:http://f-zhou.com/fg_demo/。
部分Fine-Grained分類結果(筆者已經看的餓了),在深度模型訓練過程中,除了常見的crop、rotate等data augmentation手段,Feng Zhou他們利用Bootstrapping來增加訓練數據,為了解決類內-類間的問題,利用了基於Triplet loss的的Deep metric learning方法。更具體的細節筆者就不在這里詳述,感興趣的讀者可以關注對應的文章

有別人寫好的,摘錄在此就可以先看別的文章了。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM