論文閱讀筆記(七十四)【CVPR2021】:CM-NAS: Cross-Modality Neural Architecture Search for Visible-Infrared Person Re-Identification


Introduction

當下眾多方法采用雙流網絡結構來解決RGB-IR跨模態問題。作者通過研究發現,BN層在學習模態分布中發揮着至關重要的作用。對於每一個BN都要設置是否為分離。ResNet包含了53個BN層,因此存在2^53種可能性。作者為此設計了CM-NAS網絡來自動搜索最佳的組合。

 

Method

(1) 手動設計架構分析:

作者設計了如下實驗,從圖(a)發現:

① 分離一個BN,會比Baseline性能更好;

② 分離不同塊的BN,會帶來不同的性能,因此需要合理設置部分BN進行分離;

③ 只分離BN,會比分離整個Block性能更好。

從圖(b)-(f)發現:分離兩個BN,往往比分離一個BN性能更好。

 

(2) Cross-Modality NAS:

代表兩種候選分支。當滿足時,則表示采用BN分離,當滿足時,則表示采用BN共享。這兩個參數設置為[0, 1]之間,通過softmax得出候選分支的概率值:

最終通過加權求和輸出結果:

【對於上面的圖,我存在一個疑問:為什么是把兩個不同模態的輸出concat?】

 這里通過驗證集,對α這些參數進行訓練:

最終在測試時,僅選擇概率值更高的分支。

 

(3) 目標函數:

采用CMMD損失(Class-specific Maximum Mean Discrepancy),其中mc和nc分別表示ID=c的樣本數,為RKHS(reproducing kernel hilbert space)映射函數:

考慮到特征相關性,作者約束了VIS和IR模態特征相關性的一致性,具體如下:

定義如下投影矩陣:

相似度矩陣為:

進行L2歸一化:

對相關性進行一致性約束:

 

Experiment

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM