Introduction
當下眾多方法采用雙流網絡結構來解決RGB-IR跨模態問題。作者通過研究發現,BN層在學習模態分布中發揮着至關重要的作用。對於每一個BN都要設置是否為分離。ResNet包含了53個BN層,因此存在2^53種可能性。作者為此設計了CM-NAS網絡來自動搜索最佳的組合。

Method
(1) 手動設計架構分析:
作者設計了如下實驗,從圖(a)發現:
① 分離一個BN,會比Baseline性能更好;
② 分離不同塊的BN,會帶來不同的性能,因此需要合理設置部分BN進行分離;
③ 只分離BN,會比分離整個Block性能更好。
從圖(b)-(f)發現:分離兩個BN,往往比分離一個BN性能更好。

(2) Cross-Modality NAS:

和
代表兩種候選分支。當滿足
時,則表示采用BN分離,當滿足
時,則表示采用BN共享。這兩個參數設置為[0, 1]之間,通過softmax得出候選分支的概率值:
![]()
最終通過加權求和輸出結果:
![]()
【對於上面的圖,我存在一個疑問:為什么是把兩個不同模態的輸出concat?】
這里通過驗證集,對α這些參數進行訓練:

最終在測試時,僅選擇概率值更高的分支。
(3) 目標函數:
采用CMMD損失(Class-specific Maximum Mean Discrepancy),其中mc和nc分別表示ID=c的樣本數,
為RKHS(reproducing kernel hilbert space)映射函數:

考慮到特征相關性,作者約束了VIS和IR模態特征相關性的一致性,具體如下:
定義如下投影矩陣:

相似度矩陣為:
![]()
進行L2歸一化:

對相關性進行一致性約束:
![]()
Experiment


