ICCV2021 | MicroNet：以極低的 FLOPs 改進圖像識別

本文轉載自查看原文 2021-09-12 23:27 269

前言：這篇論文旨在以極低的計算成本解決性能大幅下降的問題。提出了微分解卷積，將卷積矩陣分解為低秩矩陣，將稀疏連接整合到卷積中。提出了一個新的動態激活函數-- Dynamic Shift Max，通過最大化輸入特征圖與其循環通道移位之間的多個動態融合來改善非線性。

在這兩個新操作的基礎上，得到了一個名為 MicroNet 的網絡系列，它在低 FLOP 機制中實現了比現有技術顯着的性能提升。在 12M FLOPs 的約束下，MicroNet 在 ImageNet 分類上達到了 59.4% 的 top-1 准確率，比 MobileNetV3 高 9.6%。

論文：MicroNet: Improving Image Recognition with Extremely Low FLOPs

代碼：https://github.com/liyunsheng13/micronet

歡迎關注公眾號 CV技術指南，專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。

論文出發點

高效 CNN 架構的最新進展成功地將 ImageNet 分類的計算成本從 3.8G FLOPs (ResNet-50) 降低了兩個數量級到大約 40M FLOPs（例如 MobileNet、ShuffleNet），性能下降合理。

然而，當進一步降低計算成本時，它們會遭受顯着的性能下降。例如，當計算成本分別從 44M 下降到 21M 和 12M MAdds 時，MobileNetV3 的 top-1 准確率從 65.4% 大幅下降到 58.0% 和 49.8%。

這篇論文的目標是將極低 FLOP 機制下的精度從 21M 降到 4M MAdds，這標志着計算成本降低到另一個數量級。

處理極低計算成本（4M-21M FLOPs）的問題非常具有挑戰性，考慮到輸入數據大小為 224×224x3，在第一層 3 × 3 卷積、輸出通道8的操作上就消耗了 2.7M MAdds。剩余的資源太有限，無法設計有效分類所需的卷積層和 1,000 類分類器。

如上圖所示，減少現有高效 CNN（例如 MobileNet 和 ShuffleNet）的寬度或深度的常見策略會導致嚴重的性能下降。

這篇論文專注於新的算子設計，同時將輸入分辨率固定為 224×224，預算成本為 4M FLOPs。

創新思路

這篇論文從兩個角度處理極低的 FLOPs：節點連接性(node connectivity)和非線性(non-linearity)，這與網絡寬度和深度有關。

首先，降低節點連接以擴大網絡寬度為給定的計算預算提供了一個很好的權衡。其次，依靠改進的層非線性來補償減少的網絡深度，這決定了網絡的非線性。這兩個因素促使設計更有效的卷積和激活函數。

Methods

Micro-Factorized Convolution

分為兩部分：Micro-Factorized Pointwise Convolution和 Micro-Factorized Depthwise Convolution，兩者再以不同方式組合。

Micro-Factorized Pointwise Convolution

論文提出了微分解卷積 (MF-Conv) 將逐點卷積分解為兩個組卷積層，其中組數 G 適應通道數 C 為：G = sqrt(C/R)

其中 R 是兩者之間的通道縮減比。

對於給定的計算成本，該等式在通道數量和節點連接之間實現了良好的折衷。

如上圖所示，輸入通道數C分為G組，G組再通過中間一個 (C/R × C/R )的置換矩陣Φ 降低通道數，這個置換矩陣類似於shufflenet中的打亂通道順序的操作。

Micro-Factorized Depthwise Convolution

這個部分是引用Inception_v2中的分解卷積，在使用Depthwise的基礎上，將KxK卷積核分為Kx1和1xK兩部分。

Micro-Factorized pointwise 和 depthwise 卷積可以以兩種不同的方式組合：(a) 常規組合，和 (b) lite 組合。

前者只是將兩個卷積連接起來。上圖所示的 lite 組合使用微分解深度卷積來擴展通道數量，通過為每個通道應用多個空間濾波器。然后應用一組自適應卷積來融合和壓縮通道數。與其常規組合方式相比，它通過節省通道融合（pointwise）計算在學習空間過濾器（depthwise）上花費更多資源，經驗證明這對於實現較低的網絡層更有效。

Dynamic Shift-Max

考慮到Micro-Factorized pointwise 卷積更注重組內的連接，因此提出Dynamic Shift-Max，這是一種新的動態非線性，用於加強由Micro-Factorized創建的組之間的聯系。

Dynamic Shift-Max 輸出 K 個融合的最大值，每個融合組合多個 (J) 組位移為

其中J表示組數，i表示通道數，K表示融合后的輸出數量。當J=K=2時，可以在准確率和復雜度之間取得較好的折衷。

這個公式用一句話來解釋就是，每J個組，對每組的x進行加權求和，共K個融合，然后取K個中的最大值作為第i個通道上的激活函數值。

這樣，DY-Shift-Max 實現了兩種形式的非線性： (a) 輸出 J 組的 K 個融合的最大值，以及 (b) 通過動態參數。

第一個非線性是對 Micro-Factorized pointwise 卷積的補充，它側重於每個組內的連接，加強組之間的連接。第二個使網絡能夠根據輸入 x 調整這種強化。這兩個操作增加了網絡的表示能力，補償了減少層數所帶來的損失。

MicroNet

Conclusion

在 12M FLOPs 的約束下，MicroNet 在 ImageNet 分類上達到了 59.4% 的 top-1 准確率，比 MobileNetV3 高 9.6%。

對 ImageNet 分類的評估。左：top-1 准確率與 FLOPs。右圖：top-1 准確率與延遲。注意添加了 Mo bileNetV3 ×0.75 以方便比較。MicroNet 優於 MobileNetV3，尤其是在計算成本極低的情況下（當 FLOPs 小於 15M 或延遲小於 9ms 時，top-1 精度提高 5% 以上）。