原文鏈接:https://arxiv.org/pdf/1901.07973.pdf
DeepFashion2
在服裝識別方面,現有的DeepFashion數據集存在問題,比如關鍵點稀少等,無法適用於現實環境。文章提出DeepFashion2來解決這些問題,可以用於服裝檢測、姿態估計、分割等。它包含801K的服裝物品按照樣式分為43K類。它的注釋比同類更豐富。此外還有873K的賣家秀買家秀的配對,比DeepFashion大3.5倍。DeepFashion沒有mask注釋,而DeepFashion2有。
上圖展示了DeepFashion和DeepFashion2,前者一張圖只能識別一個物體,關鍵點少,邊界框是用關鍵點估計的所以噪聲比較大。后者識別出多個物體,人工標出了邊界框和多達20個關鍵點。
如上圖,其他數據集有的從購物網站上獲得數據,噪聲較大;圖片數量、邊界框數量、關鍵點、mask、買家秀和賣家秀pair的數量都不如DeepFashion2。
DeepFashion2的優點有:
1 樣本多,43.8K個種類,每個種類有12.7個樣本,還有大量注釋;
2 多功能,用於服裝檢測、分類、姿態評估、分割、檢索等;
3 表現力,一張圖有多個目標,且有13個關鍵點種類,每一類有23個關鍵點;
4 多樣性,包括放縮、遮擋、放大、不同角度的圖像(見上圖)。
數據來自DeepFashion和購物網站並人工篩選;人工畫上邊界框和分類,標注關鍵點、姿態、遮擋等信息,然后自動生成圖片輪廓。自動生成Mask並人工修正。
基於DeepFashion2做了四個benchmark,分別是服裝檢測、關鍵點檢測、分割、賣家秀買家秀的檢索(給定買家圖片,檢索賣家圖片)。
Match R-CNN
基於Mask R-CNN提出了Match R-CNN,可以端到端地進行上述四個任務。
Match R-CNN讀入兩個圖片,經過特征網絡FN 感知網絡PN和配對網絡MN三個部分。
FN包括ResNet-FPN主干、RPN和RoIAlign模塊。圖片先讀入ResNet50提取特征,然后進入FPN形成金字塔形feature map,RoIAlign從金字塔的不同層提取特征
PN有三個支線,分別處理不同任務。服裝檢測部分是兩個全連接層,一個檢測種類一個進行邊界框的回歸。關鍵點檢測部分有8個卷積層和2個“反卷積層”。分割部分有4個卷積層,1個反卷積層和另一個卷積層。
MN包括特征提取器和一個服裝檢索的相似性學習網絡。FN學到的RoI特征進入MN,產生特征向量用於檢索。v1和v2進入相似性學習網絡來獲得I1和I2的相似度。特征提取器有4個卷積層,1個池化層,1個全連接層相似性學習網絡包括減法、平方和1個全連接層。
代價函數:如圖,其中box用的是smooth loss,其他的都是cross-entropy loss交叉熵。
網絡實現:圖片先resize,batch size16,學習率開始時是0.02並且每隔8、11、12代遞減0.1,SGD的weight decay是10^-5,momentum 0.9。
Experiments
在DeepFashion2上測試了Mask R-CNN和Match R-CNN對於幾個任務的准確率。證明現有網絡受到遮擋、縮放等干擾較大,從而證明DeepFashion2給模型確實帶來了挑戰。