MobileNet V3與Lite R-ASPP 總結

本文轉載自查看原文 2021-01-18 11:20 343 backbone

論文名稱：《Searching for MobileNetV3》

感謝github上大佬們開源，開源代碼整理如下：

（1）PyTorch實現1：https://github.com/xiaolai-sqlai/mobilenetv3

（2）PyTorch實現2：https://github.com/kuan-wang/pytorch-mobilenet-v3

（3）PyTorch實現3：https://github.com/leaderj1001/MobileNetV3-Pytorch

（4）Caffe實現：https://github.com/jixing0415/caffe-mobilenet-v3

（5）TensorFLow實現：https://github.com/Bisonai/mobilenetv3-tensorflow

zhangts20 2021-01-18 10:40:56

分類專欄：論文閱讀文章標簽：計算機視覺深度學習

版權

簡介

在這里插入圖片描述

圖1：論文原文

該論文基於神經架構搜索技術提出下一代輕量級網絡結構， ${\rm MobileNetV3}MobileNetV3$ ，實驗結果表明該模型在目標檢測和語義分割任務上均達到了實時性的 ${\rm SOTA}SOTA$ 。論文原文

0. Abstract

${\rm MobileNetV3}MobileNetV3$ 基於神經架構搜索技術得到。論文首先探索了搜索算法與網絡設計如何協同工作，進而根據資源因素設計出兩種 ${\rm MobileNetV3}MobileNetV3$ 。最后，在目標檢測和語義分割任務上， ${\rm MobileNetV3}MobileNetV3$ 均達到了實時性的 ${\rm SOTA}SOTA$ 。

論文貢獻：（一）基於神經架構搜索技術得到輕量級網絡 ${\rm MobileNetV3}MobileNetV3$ ；（二）探討了非線性函數的使用場景；（三）在語義分割任務中提出新的輕量級解碼器；（四）在多項實時性視覺任務上達到 ${\rm SOTA}SOTA$ 。

1. Introduction

論文主要介紹了設計 ${\rm MobileNetV3}MobileNetV3$ 的過程，包括但不限於高效的搜索技術、非線性變換、網絡設計和解碼器。最后，論文給出詳盡的實驗證明了上述方法的有效性。

2. Related Work

這部分主要介紹前人有關輕量級網絡的工作。

${\rm SqueezeNet}SqueezeNet$ 大量使用基於 $1\times11×1$ 卷積的壓縮和擴展模塊，以此來減少參數量； ${\rm MobileNetV1}MobileNetV1$ 基於深度可分離卷積顯著改善了模型； ${\rm MobileNetV2}MobileNetV2$ 引入反向殘差結構在多項實時性視覺任務上達到 ${\rm SOTA}SOTA$ ； ${\rm ShuffleNet}ShuffleNet$ 基於分組卷積和通道混洗進一步減少計算量； ${\rm CondenseNet}CondenseNet$ 在訓練階段學習分組卷積來保持各層之間高效的密集連接以供特征重用； ${\rm ShiftNet}ShiftNet$ 提出基於移位操作的點卷積來代替空間卷積。

為了自動化地設計模型，基於強化學習來搜索網絡結構得到大家的廣泛關注。通常，一個完備的搜索空間會帶來資源量的指數級增加。因此，早期的架構搜索技術集中在單元結構的搜索上，然后多次復用該單元。近來， ${\rm MnasNet}MnasNet$ 提出基於模塊級的搜索空間來設計不同分辨率的層。為降低搜索的計算成本，當前大多算法使用基於梯度的優化方法。

量化是通過降低計算精度來提高模型性能的另一項重要技術；知識蒸餾提供了另一種設計小型網絡的思路，即在一個大的教師網絡的指導下生成小的精確的學生網絡。

3. Efficient Mobile Building Blocks

${\rm MobileNetV1}MobileNetV1$ 使用深度可分離卷積代替傳統卷積，其主要分為深度卷積和點卷積兩部分，顯著降低了卷積計算參數。

${\rm MobileNetV2}MobileNetV2$ 引入帶線性瓶頸塊的反向殘差結構，提出僅在高維空間使用非線性變換以此來減少信息損失。
在這里插入圖片描述

圖2：MobileNetV2基本模塊

${\rm MnasNet}MnasNet$ 基於 ${\rm MobileNetV2}MobileNetV2$ 而設計，其提出在瓶頸結構中引入基於壓縮和激勵的輕量級注意力模塊。

而 ${\rm MobileNetV3}MobileNetV3$ 使用了上述層的組合，並提出 ${\rm Swish}Swish$ 非線性激活函數。同時，為了得到高效的網絡結構，在壓縮、激勵和 ${\rm Swish}Swish$ 模塊中，均使用 ${\rm Hard\ Sigmoid}Hard Sigmoid$ 激活函數。
在這里插入圖片描述

圖3：MobileNetV3基本模塊

4. Network Search

4.1 Platform-Aware NAS for Block-wise Search

${\rm MobileNetV3}MobileNetV3$ 主要基於資源受限 ${\rm NAS}NAS$ （ ${\rm MnasNet}MnasNet$ ）和 ${\rm NetAdapt}NetAdapt$ 得到，通過在前者的基礎上加上后者等其它優化方法。

但作者發現，用於搜索大型模型的獎勵機制（基於強化學習的 ${\rm NAS}NAS$ 中的概念）不適用於小型模型。具體地，基於平衡模型的精度、延時和目標延時，使用多目標獎勵 $ACC(m)\times[LAT(m)/TAR]^wACC(m)×[LAT(m)/TAR]w$ 來得到近似帕累托最優解。而對於小型模型來說，模型精度的變化較大，因此作者提出使用一個權重因子來補償不同延時下的精度變化。基於該優化因子，作者采用隨機搜索的方法得到一個初始模型，然后使用 ${\rm NetAdapt}NetAdapt$ 等優化方法得到一個小型的 ${\rm MobileNetV3}MobileNetV3$ 。

4.2 NetAdapt for Layer-wise Search

${\rm NetAdapt}NetAdapt$ 是一項與資源受限 ${\rm NAS}NAS$ 互補的一項技術，它允許微調單個層，其過程如下：

1、基於資源受限 ${\rm NAS}NAS$ 隨機得到一個初始網絡結構；

2、對於每一步，執行如下操作：

生成一組候選結構，且每種結構相比於上一步的結構延遲減少 $\deltaδ$
對於每個候選結構，使用前一步預訓練模型填充新的候選結構，並截斷和隨機初始化缺失的權重。對每個候選結構微調次，並得到大致的精度
根據某准則選出最好的模型

3、不斷重復之前的步驟，直到達到既定目標

選擇最終模型的准則包括最小化精度變化等，論文提出將最小化延時變化與精度變化之比作為最終准則，即最大化 $\frac{\Delta{\rm Acc}}{|\Delta{\rm latency}|}∣Δlatency∣ΔAcc$ 。

得到最終的模型后，使用 ${\rm MobileNetV2}MobileNetV2$ 的方法重新隨機訓練模型，具體的改動為減少擴展層的大小和減少瓶頸模塊，同時保留殘差連接。

在迭代過程中， ${\rm T=10000}T=10000$ ， $\delta=0.01|L|δ=0.01∣L∣$ 。

5. Network Improvements

5.1 Redesigning Expensive Layers

作者發現，基於神經架構搜索得到的模型，一些前面層和最后層的計算代價較高。作者提出針對這些層的改進，在減小計算代價的同時不降低模型的精度。

第一個改動是針對后面幾層，當前，基於 ${\rm MobileNetV2}MobileNetV2$ 的模型在最后層使用 $1\times11×1$ 卷積來增加維度從而使用非線性變換，但升維的操作會引入大量計算量。為了減少延時和保留高維特征，作者提出將該層移動至最后的平均池化層。這時，原來的 $7\times77×7$ 卷積使用 $1\times11×1$ 卷積代替，平衡了計算代價和模型精度。
在這里插入圖片描述

圖4：第一個改動

另一個改動是針對前面層，當前移動端模型使用個 $3\times33×3$ 的卷積作為初始卷積以提取目標輪廓特征，作者提出減少卷積核的數量，使用不同的非線性變換來減少計算代價。將卷積核數量減少至，同時保持前者的精度。

5.2 Nonlinearities

${\rm Swish}Swish$ 非線性激活函數定義如下： ${\rm swish}\ x=x\cdot\sigma(x)\tag{1}swish x=x⋅σ(x)(1)$

盡管該激活函數提高了模型精度，但使用 ${\rm Sigmoid}Sigmoid$ 函數使其計算代價較高。論文提出了兩點解決方法，將 ${\rm Sigmoid}Sigmoid$ 函數替換掉： ${\rm h-swish}[x]=x\frac{{\rm ReLU}6(x+3)}{6}\tag{2}h−swish[x]=x6ReLU6(x+3)(2)$

盡管 ${\rm hard}hard$ - ${\rm swish}swish$ 無法顯著提高模型精度，但從部署的角度來看它更適合：首先， ${\rm ReLU6}ReLU6$ 的實現對硬件友好；其次，在量化過程中，相比於 ${\rm Sigmoid}Sigmoid$ 函數它不會帶來較大精度的損失；最后， ${\rm ReLU6}ReLU6$ 可以通過一個分段函數實現，從而降低內存的訪問次數。

其次，隨着網絡的加深，由於特征圖的尺寸變小，所以非線性實現代價逐漸變小。作者發現， ${\rm swish}swish$ 函數在網絡的后面部分的效果更好，因此，作者進將其引入模型的后半部分。

5.3 Large squeeze-and-excite

在 ${\rm MobileNetV3}MobileNetV3$ 中，作者加壓縮激勵模塊設為擴展層通道數的。這樣，既增加了模型精度，也在參數適量增加的前提下沒有明顯提高延時。

5.4 MobileNetV3 Definitions

作者設計了兩個版本的 ${\rm MobileNetV3}MobileNetV3$ ，其結構分別如下：
在這里插入圖片描述

圖5：MobileNetV3-Large

在這里插入圖片描述

圖6：MobileNetV3-Small

圖中， ${\rm HS}HS$ 表示 ${\rm h-wish}h−wish$ ， ${\rm RE}RE$ 表示 ${\rm ReLU}ReLU$ ， ${\rm NBN}NBN$ 表示不使用 ${\rm BN}BN$ 。

6. Experiments

在這里插入圖片描述

圖7：Classification

在這里插入圖片描述

圖8：Ablation Study on Impact of non-linearities

在這里插入圖片描述

圖9：Detection Based on SSDLite

在這里插入圖片描述

圖10：Semantic Segmentation

7. Conclusions and future work

論文提出基於神經架構搜索的 ${\rm MobileNetV3}MobileNetV3$ ，得到兩種不同大小的模型以滿足不同的實時性需求。關於神經架構搜索的內容，可參考此文章。

參考

Howard A, Sandler M, Chu G, et al. Searching for mobilenetv3[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 1314-1324.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 antlr 4新特性總結及與antlr v3的不同 Mobilenet V1 mobilenet v2 語義分割丨DeepLab系列總結「v1、v2、v3、v3+」 deeplab系列總結（deeplab v1& v2 & v3 & v3+） SPP，PPM、ASPP和FPN結構理解和總結從GoogLeNet至Inception v3 DbUtility v3 目標檢測之YOLO V2 V3 基於 Tensorflow 實現 Mobilenet V1 並基於 CFAR-10 數據訓練