1.MobileNet V1

這篇論文是谷歌在2017年提出了，專注於移動端或者嵌入式設備中的輕量級CNN網絡。該論文最大的創新點是，提出了深度可分離卷積（depthwise separable convolution）。

首先，我們分析一下傳統卷積的運算過程，請參考第一個動圖或者這篇博客。可以看出，傳統卷積分成兩步，每個卷積核與每張特征圖進行按位相成然后進行相加，此時，計算量為$D_F*D_F*D_K*D_K*M*N$，其中$D_F$為特征圖尺寸，$D_K$為卷積核尺寸，M為輸入通道數，N為輸出通道數。

然后，重點介紹一下深度可分離卷積。深度可分離卷積將傳統卷積的兩步進行分離開來，分別是depthwise和pointwise。從下面的圖可以看出，首先按照通道進行計算按位相乘的計算，此時通道數不改變；然后依然得到將第一步的結果，使用1*1的卷積核進行傳統的卷積運算，此時通道數可以進行改變。使用了深度可分離卷積，其計算量為$D_K*D_K*M*D_F*D_F+1*1*M*N*D_F*D_F$。

通過深度可分離卷積，計算量將會下降$\frac{1}{N}+\frac{1}{D_K^{2}}$，當$D_K=3$時，深度可分離卷積比傳統卷積少8到9倍的計算量。

這種深度可分離卷積雖然很好的減少計算量，但同時也會損失一定的准確率。從下圖可以看到，使用傳統卷積的准確率比深度可分離卷積的准確率高約1%，但計算量卻增大了9倍。

最后給出v1的整個模型結構，該網絡有28層。可以看出，該網絡基本去除了pool層，使用stride來進行降采樣（難道是因為pool層的速度慢？）。

其次，v1還存在以下的亮點，值得關注一下：

depthwise后接BN層和RELU6，pointwise后也接BN層和RELU6，如下圖所示（圖中應該是RELU6）。左圖是傳統卷積，右圖是深度可分離卷積。更多的ReLU6，增加了模型的非線性變化，增強了模型的泛化能力。

v1中使用了RELU6作為激活函數，這個激活函數在float16/int8的嵌入式設備中效果很好，能較好地保持網絡的魯棒性。

v1還給出了2個超參，寬度乘子$α$和分辨率乘子$β$，通過這兩個超參，可以進一步縮減模型，文章中也給出了具體的試驗結果。此時，我們反過來看，擴大寬度和分辨率，都能提高網絡的准確率，但如果單一提升一個的話，准確率很快就會達到飽和，這就是2019年谷歌提出efficientnet的原因之一，動態提高深度、寬度、分辨率來提高網絡的准確率。

2.MobileNet V2

MobileNet V2發表與2018年，時隔一年，谷歌的又一力作。V2在V1的基礎上，引入了Inverted Residuals和Linear Bottlenecks。

為什么要引入這兩個模塊呢？參考這篇文章，有人發現，在使用V1的時候，發現depthwise部分的卷積核容易費掉，即卷積核大部分為零。作者認為這是ReLU引起的。文章的一個章節來介紹這個理論，但小弟水平有限，還理解不了。

簡單來說，就是當低維信息映射到高維，經過ReLU后再映射回低維時，若映射到的維度相對較高，則信息變換回去的損失較小；若映射到的維度相對較低，則信息變換回去后損失很大，如下圖所示。因此，認為對低維度做ReLU運算，很容易造成信息的丟失。而在高維度進行ReLU運算的話，信息的丟失則會很少。另外一種解釋是，高維信息變換回低維信息時，相當於做了一次特征壓縮，會損失一部分信息，而再進過relu后，損失的部分就更加大了。作者為了這個問題，就將ReLU替換成線性激活函數。

Inverted Residuals

這個可以翻譯成“倒殘差模塊”。什么意思呢？我們來對比一下殘差模塊和倒殘差模塊的區別。

殘差模塊：輸入首先經過1*1的卷積進行壓縮，然后使用3*3的卷積進行特征提取，最后在用1*1的卷積把通道數變換回去。整個過程是“壓縮-卷積-擴張”。這樣做的目的是減少3*3模塊的計算量，提高殘差模塊的計算效率。
倒殘差模塊：輸入首先經過1*1的卷積進行通道擴張，然后使用3*3的depthwise卷積，最后使用1*1的pointwise卷積將通道數壓縮回去。整個過程是“擴張-卷積-壓縮”。為什么這么做呢？因為depthwise卷積不能改變通道數，因此特征提取受限於輸入的通道數，所以將通道數先提升上去。文中的擴展因子為6。

Linear Bottleneck

這個模塊是為了解決一開始提出的那個低維-高維-低維的問題，即將最后一層的ReLU替換成線性激活函數，而其他層的激活函數依然是ReLU6。

將兩個模塊進行結合，如下圖所示。當stride=1時，輸入首先經過1*1的卷積進行通道數的擴張，此時激活函數為ReLU6；然后經過3*3的depthwise卷積，激活函數是ReLU6；接着經過1*1的pointwise卷積，將通道數壓縮回去，激活函數是linear；最后使用shortcut，將兩者進行相加。而當stride=2時，由於input和output的特征圖的尺寸不一致，所以就沒有shortcut了。

最后，給出v2的網絡結構。其中，t為擴張系數，c為輸出通道數，n為該層重復的次數，s為步長。可以看出，v2的網絡比v1網絡深了很多，v2有54層。

當然，還不能少了性能對比圖。v2的准確率比v1高出不少，延時也低了很多，是一款不錯的輕量化網絡。

3.MoblieNet V3

MobileNet V3發表於2019年，該v3版本結合了v1的深度可分離卷積、v2的Inverted Residuals和Linear Bottleneck、SE模塊，利用NAS（神經結構搜索）來搜索網絡的配置和參數。這種方式已經遠遠超過了人工調參了，太恐怖了。

v3在v2的版本上有以下的改進：

作者發現，計算資源耗費最多的層是網絡的輸入和輸出層，因此作者對這兩部分進行了改進。如下圖所示，上面是v2的最后輸出幾層，下面是v3的最后輸出的幾層。可以看出，v3版本將平均池化層提前了。在使用$1\times 1$卷積進行擴張后，就緊接池化層-激活函數，最后使用$1\times 1$的卷積進行輸出。通過這一改變，能減少10ms的延遲，提高了15%的運算速度，且幾乎沒有任何精度損失。其次，對於v2的輸入層，通過$3\times 3$卷積將輸入擴張成32維。作者發現使用ReLU或者switch激活函數，能將通道數縮減到16維，且准確率保持不變。這又能節省3ms的延時。