論文閱讀筆記（七十四）【CVPR2021】：CM-NAS: Cross-Modality Neural Architecture Search for Visible-Infrared Person Re-Identification

本文轉載自查看原文 2021-05-31 17:32 201 行人重識別

Introduction

當下眾多方法采用雙流網絡結構來解決RGB-IR跨模態問題。作者通過研究發現，BN層在學習模態分布中發揮着至關重要的作用。對於每一個BN都要設置是否為分離。ResNet包含了53個BN層，因此存在2^53種可能性。作者為此設計了CM-NAS網絡來自動搜索最佳的組合。

Method

(1) 手動設計架構分析：

作者設計了如下實驗，從圖(a)發現：

① 分離一個BN，會比Baseline性能更好；

② 分離不同塊的BN，會帶來不同的性能，因此需要合理設置部分BN進行分離；

③ 只分離BN，會比分離整個Block性能更好。

從圖(b)-(f)發現：分離兩個BN，往往比分離一個BN性能更好。

(2) Cross-Modality NAS:

和代表兩種候選分支。當滿足時，則表示采用BN分離，當滿足時，則表示采用BN共享。這兩個參數設置為[0, 1]之間，通過softmax得出候選分支的概率值：

最終通過加權求和輸出結果：

【對於上面的圖，我存在一個疑問：為什么是把兩個不同模態的輸出concat？】

這里通過驗證集，對α這些參數進行訓練：

最終在測試時，僅選擇概率值更高的分支。

(3) 目標函數：

采用CMMD損失(Class-specific Maximum Mean Discrepancy)，其中mc和nc分別表示ID=c的樣本數，為RKHS(reproducing kernel hilbert space)映射函數：

考慮到特征相關性，作者約束了VIS和IR模態特征相關性的一致性，具體如下：

定義如下投影矩陣：

相似度矩陣為：

進行L2歸一化：

對相關性進行一致性約束：

Experiment

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。