發表於2015年這篇《Fully Convolutional Networks for Semantic Segmentation》在圖像語義分割領域舉足輕重。
1 CNN 與 FCN
通常CNN網絡在卷積層之后會接上若干個全連接層, 將卷積層產生的特征圖(feature map)映射成一個固定長度的特征向量。以AlexNet為代表的經典CNN結構適合於圖像級的分類和回歸任務,因為它們最后都期望得到整個輸入圖像的一個數值描述(概率),比如AlexNet的ImageNet模型輸出一個1000維的向量表示輸入圖像屬於每一類的概率(softmax歸一化)。
例如:下圖中的貓, 輸入AlexNet, 得到一個長為1000的輸出向量, 表示輸入圖像屬於每一類的概率, 其中在“tabby cat”這一類統計概率最高。
FCN對圖像進行像素級的分類,從而解決了語義級別的圖像分割(semantic segmentation)問題。與經典的CNN在卷積層之后使用全連接層得到固定長度的特征向量進行分類(全聯接層+softmax輸出)不同,FCN可以接受任意尺寸的輸入圖像,采用反卷積層對最后一個卷積層的feature map進行上采樣, 使它恢復到輸入圖像相同的尺寸,從而可以對每個像素都產生一個預測,同時保留原始輸入圖像中的空間信息,最后在上采樣的特征圖上進行逐像素分類。
最后逐個像素計算softmax分類的損失, 相當於每一個像素對應一個訓練樣本。下圖是用於語義分割所采用的全卷積網絡(FCN)的結構示意圖:
簡單來說,FCN與CNN的區別在於CNN最后的全連接層換成卷積層,輸出的是一張已經Label好的圖片。
CNN的強大之處在於它的多層結構能自動學習特征,並且可以學習到多個層次的特征:較淺的卷積層感知域較小,學習到一些局部區域的特征;較深的卷積層具有較大的感知域,能夠學習到更加抽象一些的特征。這些抽象特征對物體的大小、位置和方向等敏感性更低,從而有助於識別性能的提高。下圖為CNN分類網絡的示意圖:
這些抽象的特征對分類很有幫助,可以很好地判斷出一幅圖像中包含什么類別的物體。然而,與此同時,由於丟失了一些物體的細節,不能很好地給出物體的具體輪廓、指出每個像素具體屬於哪個物體,因此做到精確的分割就很有難度。
傳統的基於CNN的分割方法:
為了對一個像素分類,使用該像素周圍的一個圖像塊作為CNN的輸入用於訓練和預測。
這種方法有幾個缺點:
一是存儲開銷很大。例如對每個像素使用的圖像塊的大小為15x15,然后不斷滑動窗口,每次滑動的窗口給CNN進行判別分類,因此所需的存儲空間根據滑動窗口的次數和大小急劇上升。
二是計算效率低下。相鄰的像素塊基本上是重復的,針對每個像素塊逐個計算卷積,這種計算也有很大程度上的重復。
三是像素塊大小的限制了感知區域的大小。通常像素塊的大小比整幅圖像的大小小很多,只能提取一些局部的特征,從而導致分類的性能受到限制。
而全卷積網絡(FCN)則是從抽象的特征中恢復出每個像素所屬的類別。即從圖像級別的分類進一步延伸到像素級別的分類。
全連接層 -> 卷積層
全連接層和卷積層之間唯一的不同就是卷積層中的神經元只與輸入數據中的一個局部區域連接,並且在卷積列中的神經元共享參數。然而在兩類層中,神經元都是計算點積,所以它們的函數形式是一樣的。因此,將此兩者相互轉化是可能的。
(1)對於任一個卷積層,都存在一個能實現和它一樣的前向傳播函數的全連接層。權重矩陣是一個巨大的矩陣,除了某些特定塊,其余部分都是零。而在其中大部分塊中,元素都是相等的。
(2)相反,任何全連接層都可以被轉化為卷積層。
比如,一個 K=4096 的全連接層,輸入數據體的尺寸是 7∗7∗512,這個全連接層可以被等效地看做一個 F=7,P=0,S=1,K=4096 的卷積層。
換句話說,就是將濾波器的尺寸設置為和輸入數據體的尺寸一致了。
由於只有一個單獨的深度列覆蓋並滑過輸入數據體,所以輸出將變成 1∗1∗4096,這個結果就和使用初始的那個全連接層一樣了。
全連接層轉化為卷積層:
在兩種變換中,將全連接層轉化為卷積層在實際運用中更加有用。假設一個卷積神經網絡的輸入是 224x224x3 的圖像,一系列的卷積層和下采樣層將圖像數據變為尺寸為 7x7x512 的激活數據體。AlexNet使用了兩個尺寸為4096的全連接層,最后一個有1000個神經元的全連接層用於計算分類評分。我們可以將這3個全連接層中的任意一個轉化為卷積層:
(1)針對第一個連接區域是[7x7x512]的全連接層,令其濾波器尺寸為F=7,這樣輸出數據體就為[1x1x4096]了。
(2)針對第二個全連接層,令其濾波器尺寸為F=1,這樣輸出數據體為[1x1x4096]。
(3)對最后一個全連接層也做類似的,令其F=1,最終輸出為[1x1x1000]
實際操作中,每次這樣的變換都需要把全連接層的權重W重塑成卷積層的濾波器。那么這樣的轉化有什么作用呢?它在下面的情況下可以更高效:讓卷積網絡在一張更大的輸入圖片上滑動,得到多個輸出,這樣的轉化可以讓我們在單個向前傳播的過程中完成上述操作。
例如:
如果我們想讓224×224尺寸的浮窗,以步長32在384×384的圖片上滑動,把每個經停的位置都帶入卷積網絡,最后得到6×6個位置的類別得分。上述把全連接層轉換成卷積層的做法會更簡便。
如果224×224的輸入圖片經過卷積層和下采樣層之后得到了[7x7x512]的數組,那么,384×384的大圖片直接經過同樣的卷積層和下采樣層之后會得到[12x12x512]的數組。然后再經過上面由3個全連接層轉化得到的3個卷積層,最終得到[6x6x1000]的輸出((12 – 7)/1 + 1 = 6)。這個結果正是浮窗在原圖經停的6×6個位置的得分:
面對384×384的圖像,讓(含全連接層)的初始卷積神經網絡以32像素的步長獨立對圖像中的224×224塊進行多次評價,其效果和使用把全連接層變換為卷積層后的卷積神經網絡進行一次前向傳播是一樣的。
如下圖所示,FCN將傳統CNN中的全連接層轉化成卷積層,對應CNN網絡FCN把最后三層全連接層轉換成為三層卷積層。在傳統的CNN結構中,前5層是卷積層,第6層和第7層分別是一個長度為4096的一維向量,第8層是長度為1000的一維向量,分別對應1000個不同類別的概率。FCN將這3層表示為卷積層,卷積核的大小 (通道數,寬,高) 分別為 (4096,1,1)、(4096,1,1)、(1000,1,1)。看上去數字上並沒有什么差別,但是卷積跟全連接是不一樣的概念和計算過程,使用的是之前CNN已經訓練好的權值和偏置,但是區別在於權值和偏置有自己的范圍,屬於自己的一個卷積核。因為FCN網絡中所有的層都是卷積層,故稱為全卷積網絡。
下圖是一個全卷積層,與上圖不一樣的是圖像對應的大小下標,CNN中輸入的圖像大小是統一固定resize成 227x227 大小的圖像,第一層pooling后為55x55,第二層pooling后圖像大小為27x27,第五層pooling后的圖像大小為13*13。而FCN輸入的圖像是H*W大小,第一層pooling后變為原圖大小的1/4,第二層變為原圖大小的1/8,第五層變為原圖大小的1/16,第八層變為原圖大小的1/32(勘誤:其實真正代碼當中第一層是1/2,以此類推)。
經過多次卷積和pooling以后,得到的圖像越來越小,分辨率越來越低。其中圖像到 H/32∗W/32 的時候圖片是最小的一層時,所產生圖叫做heatmap熱圖,熱圖就是我們最重要的高維特征圖,得到高維特征的heatmap之后就是最重要的一步也是最后的一步對原圖像進行upsampling,把圖像進行放大、放大、放大,到原圖像的大小。
最后的輸出是1000張heatmap經過upsampling變為原圖大小的圖片,為了對每個像素進行分類預測label成最后已經進行語義分割的圖像,這里有一個小trick,就是最后通過逐個像素地求其在1000張圖像該像素位置的最大數值描述(概率)作為該像素的分類。因此產生了一張已經分類好的圖片,如下圖右側有狗狗和貓貓的圖。
upsampling
相較於使用被轉化前的原始卷積神經網絡對所有36個位置進行迭代計算,使用轉化后的卷積神經網絡進行一次前向傳播計算要高效得多,因為36次計算都在共享計算資源。這一技巧在實踐中經常使用,一次來獲得更好的結果。比如,通常將一張圖像尺寸變得更大,然后使用變換后的卷積神經網絡來對空間上很多不同位置進行評價得到分類評分,然后再求這些分值的平均值。
最后,如果我們想用步長小於32的浮窗怎么辦?用多次的向前傳播就可以解決。比如我們想用步長為16的浮窗。那么先使用原圖在轉化后的卷積網絡執行向前傳播,然后分別沿寬度,沿高度,最后同時沿寬度和高度,把原始圖片分別平移16個像素,然后把這些平移之后的圖分別帶入卷積網絡。
如下圖所示,當圖片在網絡中經過處理后變成越小的圖片,其特征也越明顯,就像圖像中顏色所示,當然,最后一層的圖片不再是一個1個像素的圖片,而是原圖像 H/32xW/32 大小的圖,這里為了簡化而畫成一個像素。
如下圖所示,對原圖像進行卷積conv1、pool1后原圖像縮小為1/2;之后對圖像進行第二次conv2、pool2后圖像縮小為1/4;接着繼續對圖像進行第三次卷積操作conv3、pool3縮小為原圖像的1/8,此時保留pool3的featureMap;接着繼續對圖像進行第四次卷積操作conv4、pool4,縮小為原圖像的1/16,保留pool4的featureMap;最后對圖像進行第五次卷積操作conv5、pool5,縮小為原圖像的1/32,然后把原來CNN操作中的全連接變成卷積操作conv6、conv7,圖像的featureMap數量改變但是圖像大小依然為原圖的1/32,此時圖像不再叫featureMap而是叫heatMap。
現在我們有1/32尺寸的heatMap,1/16尺寸的featureMap和1/8尺寸的featureMap,1/32尺寸的heatMap進行upsampling操作,因為這樣的操作還原的圖片僅僅是conv5中的卷積核中的特征,限於精度問題不能夠很好地還原圖像當中的特征,因此在這里向前迭代。把conv4中的卷積核對上一次upsampling之后的圖進行反卷積補充細節(相當於一個差值過程),最后把conv3中的卷積核對剛才upsampling之后的圖像進行再次反卷積補充細節,最后就完成了整個圖像的還原。
FCN的缺點:
(1)得到的結果還是不夠精細。進行8倍上采樣雖然比32倍的效果好了很多,但是上采樣的結果還是比較模糊和平滑,對圖像中的細節不敏感。
(2)對各個像素進行分類,沒有充分考慮像素與像素之間的關系。忽略了在通常的基於像素分類的分割方法中使用的空間規整(spatial regularization)步驟,缺乏空間一致性。
感謝原文作者:https://www.cnblogs.com/gujianhan/p/6030639.html