Super-resolution Person Re-identification with Semi-coupled Low-rank Discriminant Dictionary Learning 【CVPR2015】
問題背景:gallery為高分辨率,probe為低分辨率。

本文提出了Semi-Coupled Dictionary Learning(SCDL)方法,具體如下:

假定HR圖像來自於
,LR圖像來自於
,通過對
進行下采樣為LR圖像記為
。將來自於
和
的LR圖像分割為多個patch,根據patch特征之間的相似性采用K-means聚類,將
的聚類結果復刻到
的HR圖像中。定義HR、LR的第 i 個子字典分別為
和
,每個聚類的子字典擁有表征聚類內的patch,但對其它聚類的patch表征能力較差。第 i 個聚類的映射矩陣為
。HR、LR整體的字典分別為
和
。
注:為什么要分成小塊呢?因為作者認為不同顏色的塊受到分辨率的影響不一樣。如果色塊單一,那么分辨率不一致是沒太大影響的;但如果色塊細節豐富顏色眾多,那么分辨率影響較大。因此對不同顏色的塊需要學習不同的字典和映射。
定義patch的集合:
、
、
分別表示
、
、
的patch集合,下標 i 表示其來自第 i 個聚類,
、
、
表示其為
、
、
中第 i 個patch。
、
、
分別表示
、
、
關於
的編碼系數(同理,用B表示Y的編碼)。
表示
關於
的編碼系數。各個聚類的映射矩陣定義為![]()
目標函數定義:


具體為:
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
其中 S 和 D 分別為正負樣本對,
,
。
優化算法分為三步:
① 固定字典對
、
和投影矩陣
,更新編碼系數
、
、
;
② 固定編碼系數
、
、
和投影矩陣
,更新字典對
、
;
③ 固定編碼系數
、
、
和 字典對
、
,更新投影矩陣
。

實驗結果:




Deep Low-Resolution Person Re-Identification【AAAI2018】
本文針對高低分辨率匹配問題提出了 Super-resolution and Identity joiNt learninG (SING) 方法,同時關注行人的超分圖像優化和匹配問題。本文指出了當前跨分辨率reid方法的一個問題:只是在一個預定義的特征空間進行特征轉換,而不是去恢復確實的樣貌信息。由此可以嘗試將圖像超分技術(SR)應用到reid中。然而直接將SR應用到reid中存在主次相容性的問題,也就是兩個任務的目標不同,SR的目標只是改善圖像的分辨率,但SR優化后的圖像不一定能對reid的匹配提供幫助。SING結構如下:

結構比較易懂,不做描述。其中SR Loss為:
![]()
SING中綠色的(b)分支承擔了聯接SR任務和reid任務的作用,使得網絡同時學習兩個任務。SR網絡采用了2016年提出的SRCNN網絡,即兩個卷積層+ReLU+重構卷積層;Reid網絡采用了2016年提出的DGD網絡。
由於下采樣率一致,SING CNN預設的LR圖像分辨率比較相似。然而現實場景中不同圖像的分辨率差異較大,為此作者采用了不同的采樣率
訓練得到多個SING模型
,在度量距離時采用多分辨率融合距離,即:

其中 w 表示權重,D 表示對應模型query與gallery的距離。為了讓距離度量能夠適應多種分辨率,作者評估了LR probe和HR gallery之間分辨率相似度,即:

其中
表示LR probe的空間像素,
表示所有HR gallery的平均空間像素。最終權重 w 的計算為:
![]()
其中
為一個縮放參數。
可以理解為:采樣率越接近LR和HR的分辨率差異,說明采樣率設置的越合理,則該距離度量的權重更大。
實驗所用的數據集為3個模擬和1個真實的LR reid數據集。具體為:① MLR-VIPeR:由VIPeR生成,每張HR圖像分辨率設置為128*48,其中一個攝像頭改為LR圖像,采樣率設置為 {1/2, 1/3, 1/4 };② MLR-SYSU:由SYSU生成,包含2個攝像頭,其中一個改為LR;③ MLR-CUHK03:由CUHK03生成,包含5個不同的攝像頭對,對於每對攝像頭,選取一個作為LR圖像;④ CAVIAR:真實場景的高低分辨率reid數據集,包含了兩個有距離差異的攝像頭,其中一個為LR,另一個為HR,不需要額外設置采樣率。實驗結果如下:


Resolution-invariant Person Re-Identification【IJCAI2019】
本文提出了一個 Foreground-Focus Super-Resolution (FFSR) module 和 Resolution-Invariant Feature Extractor (RIFE)。前者通過采用了一個卷積自編碼器來upscale行人的前景信息,后者針對高低分辨率采用了雙分支特征提取結構,應用了雙重注意力模塊來提取特征。作者認為先前采用SR解決高低分辨率reid存在一個問題:對於行人的圖像,不管是行人還是背景都被無差別地提高了分辨率。作者的FFSR與之前的SR方法不同,FFSR在訓練時聯合了ReID損失和前景注意力損失,在恢復行人分辨率的同時,抑制無關背景。
問題定義:行人圖片為
,其中
為分辨率參數,計算為:
,即該圖片的寬度與數據集中所有圖片的最大寬度的比值。解決的目標問題是拉近相同ID的特征距離,拉大不同ID的特征距離,即:
![]()
作者驗證了分辨率對Reid效果的影響,如下圖:

對於高低分辨率,作者提出的FFSR改善了LR的分辨率,RIFT提取出了適應分辨率的特征,即:
![]()
網絡結構如下圖:

FFSR模塊:FFSR的結構基於一個自編碼器,先對圖像進行stride=2的卷積來下采樣,再進行stride=1的卷積來提取特征。在反卷積階段采用RED-net (2016提出) 中的symmetric skip connection (跳層結構),保留了原始圖像中的細節,增強了重構圖像。LR重構的圖像與HR圖像的像素損失為:
![]()
其中
為每個元素的相乘,M 為前景mask。M 的生成可以用語義分割算法,但對於標准的行人檢測框,行人一般處在圖像的中央,為了簡化采用了Gaussian kernel作為前景mask。
RIFE模塊:FFSR模塊還不足以做到分辨率的適應,因此還需要采用RIFE模塊進一步對特征提取做優化。由於高低分辨率圖像的細節存在差異,對於兩類圖像需要采用不同的特征提取器。RIFE模塊由多個Dual-Stream Block (DSB)組成。對於每個DSB,雙分支分別提取得到特征映射
和
,如果輸入的圖像像素高,那么HR分支的權重更大,反之LR分支的權重更大,最終輸出的特征為:
![]()
其損失函數定義為(損失的含義也就是分辨率 r 越大,
越大,兩者數值應該接近):
![]()
最終通過 GAP 和 FC,得到的特征向量采用交叉熵損失。
實驗對CAVIAR、MLR-VIPeR、MLR-CUHK03、VR-Market1501、VR-MSMT17進行測試,前三個數據集上面已經介紹,VR-Market1501將圖像下采樣到寬度為[8,32),VR-MSMT17將圖像下采樣到寬度為[32,128)。實驗結果如下:


Recover and Identify: A Generative Dual Model for Cross-Resolution Person Re-Identification【ICCV2019】
作者指出之前的LR-HR匹配方法的不足之處:① 采用超分辨率的方法來提升分辨率,但需要SR模型預先定義LR的分辨率;② 真實環境下,query的LR圖像分辨率是不確定的。

為此作者提出了Cross-resolution Adversarial Dual Network (CAD-Net)。首先采用對抗學習的思想實現分辨率適應表征,再學習恢復LR的丟失細節。其網絡結構圖如下:

定義:HR圖像集合
,對應標簽集合![]()
,通過降采樣獲得的LR圖像集合
。網絡的結構包含兩個主要模塊:Cross-Resolution Generative Adversarial Network (CRGAN) 和 Cross-Model ReID network。CRGAN模塊可以學習得到一個分辨率適應的特征
,decoder后得到的HR圖像作為新的encoder的輸入,得到HR特征
。最終輸出的特征為兩個特征級聯
再通過GAP壓縮到通道維度。
CRGAN包含了一個encoder
和一個decoder
。為了讓encoder能夠適應不同分辨率,作者提出了對抗學習策略和一個分辨率判別器
,對抗損失為:
![]()
其中
,
。為了彌補LR圖像損失的細節,采用了一個high-resolution decoder重構了HR圖像,重構損失為:
![]()
為了激勵HR decoder能夠獲取更加真實的HR圖像,再次采用了對抗學習的方法,引入了HR圖像判別器
,用來判別decoder得到的圖像是real的HR圖像還是fake的HR圖像,對抗損失為:

將重構的HR圖像輸入到一個encoder中提取得到HR特征
。
最終用於判別的損失函數包含了三元組損失和ID損失。
實驗結果(數據集設置參照SING):


