圖像語義分割的深度學習算法回顧

用於東西分割的 COCO 數據集示例。來源: http 😕/cocodataset.org/
引言
深度學習算法已經解決了幾個難度越來越大的計算機視覺任務。在我之前的博客文章中,我詳細介紹了眾所周知的:圖像分類和對象檢測。圖像語義分割挑戰包括將圖像的每個像素(或僅幾個像素)分類為一個實例,每個實例(或類別)對應於一個對象或圖像的一部分(道路、天空……)。該任務是場景理解概念的一部分:深度學習模型如何更好地學習視覺內容的全局上下文?
物體檢測任務在復雜度上已經超過了圖像分類任務。它包括在圖像中包含的對象周圍創建邊界框,並對每個對象進行分類。大多數對象檢測模型使用錨框和提議來檢測對象周圍的邊界框。不幸的是,只有少數模型考慮了圖像的整個上下文,但它們只對一小部分信息進行分類。因此,它們無法提供對場景的全面理解。
為了理解一個場景,每個視覺信息都必須與一個實體相關聯,同時考慮空間信息。要真正理解圖像或視頻中的動作,還出現了其他幾個挑戰:關鍵點檢測、動作識別、視頻字幕、視覺問答等。更好地理解環境將在許多領域有所幫助。例如,自動駕駛汽車需要以高精度划定路邊才能自行移動。在機器人技術中,生產機器應該了解如何抓取、轉動和組合兩個需要界定物體確切形狀的不同部件。
在這篇博文中,詳細介紹了一些先前關於圖像語義分割挑戰的最先進模型的架構。請注意,研究人員使用不同的數據集(PASCAL VOC、PASCAL Context、COCO、Cityscapes)測試他們的算法,這些數據集在年份之間是不同的,並且使用不同的評估指標。因此,所引用的性能本身不能直接比較。此外,結果取決於預訓練的頂級網絡(主干網絡),這篇文章中發布的結果對應於每篇論文中發布的關於其測試數據集的最佳分數。
數據集和指標
PASCAL 視覺對象類 (PASCAL VOC)
PASCAL VOC 數據集 (2012) 是眾所周知的常用於對象檢測和分割的數據集。超過 11k 幅圖像組成了訓練和驗證數據集,而 10k 幅圖像專用於測試數據集。
分割挑戰使用平均交叉聯合 (mIoU)指標進行評估。Intersection over Union (IoU) 是一種也用於對象檢測的度量,用於評估預測位置的相關性。IoU是ground truth和預測區域之間的重疊區域和聯合區域之間的比率。mIoU 是分割對象在測試數據集的所有圖像上的 IoU 之間的平均值。

用於圖像分割的 2012 PASCAL VOC 數據集示例。來源:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html
PASCAL-Context
PASCAL-Context 數據集 (2014) 是 2010 PASCAL VOC 數據集的擴展。它包含大約 10k 用於訓練的圖像,10k 用於驗證和 10k 用於測試。這個新版本的特點是整個場景被分割提供了 400 多個類別。請注意,圖像已由六名內部注釋者在三個月內進行了注釋。
PASCAL-Context 挑戰的官方評估指標是 mIoU。其他幾個指標由研究發布為像素精度 (pixAcc)。在這里,性能將僅與 mIoU 進行比較。

PASCAL-Context 數據集的示例。資料來源:https 😕/cs.stanford.edu/~roozbeh/pascal-context/
COCO
圖像語義分割(“物體檢測”和“物體分割”)有兩個 COCO 挑戰(2017 年和 2018 年)。“對象檢測”任務包括將對象分割和分類為 80 個類別。“東西分割”任務使用圖像的大部分分割部分(天空、牆壁、草)的數據,它們包含幾乎所有的視覺信息。在這篇博文中,將只比較“對象檢測”任務的結果,因為引用的研究論文中很少有關於“物體分割”任務的結果。
用於對象分割的 COCO 數據集由超過 200k 的圖像和超過 500k 的對象實例分割組成。它包含一個訓練數據集、一個驗證數據集、一個用於研究人員的測試數據集(test-dev)和一個用於挑戰的測試數據集(test-challenge)。兩個測試數據集的注釋都不可用。這些數據集包含 80 個類別,並且僅分割了相應的對象。此挑戰使用與對象檢測挑戰相同的指標:平均精度 (AP) 和平均召回率 (AR) 均使用聯合交集 (IoU)。
有關 IoU 和 AP 指標的詳細信息,請參閱我之前的博客文章。例如 AP,Average Recall 是使用具有特定重疊值范圍的多個 IoU 計算的。對於固定的 IoU,具有相應測試/地面實況重疊的對象被保留。然后為檢測到的對象計算召回指標。最終的 AR 指標是所有 IoU 范圍值的計算召回率的平均值。基本上,用於分割的 AP 和 AR 度量與對象檢測的工作方式相同,除了 IoU 是按像素計算的,用於語義分割的非矩形形狀。

用於對象分割的 COCO 數據集示例。來源:http 😕/cocodataset.org/
Cityscapes
Cityscapes 數據集於 2016 年發布,包含來自 50 個城市的復雜分段城市場景。它由 23.5k 用於訓練和驗證的圖像(精細和粗略注釋)和 1.5 張用於測試的圖像(僅精細注釋)組成。圖像是完全分割的,例如具有 29 個類別的 PASCAL-Context 數據集(在 8 個超類別內:平面、人類、車輛、建築、物體、自然、天空、虛空)。由於其復雜性,它通常用於評估語義分割模型。它還因其與自動駕駛應用的真實城市場景的相似性而聞名。語義分割模型的性能是使用 mIoU 指標計算的,例如 PASCAL 數據集。

Cityscapes 數據集的示例。頂部:粗略的注釋。底部:精細注釋。來源:https 😕/www.cityscapes-dataset.com/
網絡模型
Fully Convolutional Network (FCN)
J. Long 等人。(2015 年)率先開發了一個完全卷積網絡(FCN)(僅包含卷積層),用於圖像分割的端到端訓練。
FCN 獲取任意大小的圖像並生成相同大小的分割圖像。作者首先修改了眾所周知的架構(AlexNet、VGG16、GoogLeNet),使其具有非固定大小的輸入,同時用卷積層替換所有全連接層。由於網絡生成了幾個具有小尺寸和密集表示的特征圖,因此需要上采樣來創建與輸入尺寸相同的輸出。基本上,它包含一個步幅小於 1 的卷積層。通常稱為反卷積因為它創建了一個比輸入更大的輸出。這樣,網絡使用逐像素損失進行訓練。此外,他們在網絡中添加了跳躍連接,以將高級特征圖表示與網絡頂部更具體和密集的特征圖表示相結合。
作者使用 2012 ImageNet 數據集上的預訓練模型在 2012 PASCAL VOC 分割挑戰中達到了 62.2% 的 mIoU 分數。對於 2012 PASCAL VOC 對象檢測挑戰,名為 Faster R-CNN 的基准模型已達到 78.8% mIoU。即使我們不能直接比較兩個結果(不同的模型、不同的數據集和不同的挑戰),看起來語義分割任務比目標檢測任務更難解決。

FCN 的架構。請注意,此處未繪制跳過連接。來源:J. Long 等人。(2015)
ParseNet
W.劉等人。(2015)發表了一篇論文,解釋了J. Long 等人的 FCN 模型的改進。(2015 年)。根據作者的說法,FCN 模型通過專門生成的特征圖在其深層丟失了圖像的全局上下文。ParseNet 是一個端到端的卷積網絡,同時預測所有像素的值,它避免將區域作為輸入來保留全局信息。作者使用了一個以特征圖作為輸入的模塊。第一步使用模型生成特征圖,將其簡化為具有池化層的單個全局特征向量。使用L2 Euclidian Norm對該上下文向量進行歸一化並且它是非池化的(輸出是輸入的擴展版本)以生成與初始特征圖大小相同的新特征圖。第二步使用 L2 Euclidian Norm 對整個初始特征圖進行歸一化。最后一步連接前兩個步驟生成的特征圖。歸一化有助於縮放連接的特征圖值,並帶來更好的性能。基本上,ParseNet 是一個 FCN,這個模塊取代了卷積層。它在 PASCAL-Context 挑戰中獲得了 40.4% 的 mIoU 分數,在 2012 PASCAL VOC 分割挑戰中獲得了 69.8% 的 mIoU 分數。

FCN 和 ParseNet 的分割和 ParseNet 模塊的架構比較。資料來源:W. Liu 等人。(2015)
Convolutional and Deconvolutional Networks
卷積和反卷積網絡
H. Noh 等人。(2015)發布了一個由兩個鏈接部分組成的端到端模型。第一部分是具有 VGG16 架構的卷積網絡。它將實例提議作為輸入,例如由對象檢測模型生成的邊界框。該提案由卷積網絡處理和轉換,以生成特征向量。第二部分是一個反卷積網絡,將特征向量作為輸入,並生成屬於每個類的逐像素概率圖。反卷積網絡使用unpooling以最大激活為目標,以保持地圖中信息的位置。第二個網絡還使用反卷積將單個輸入關聯到多個特征圖。反卷積擴展了特征圖,同時保持信息密集。

卷積網絡層(池化和卷積)與反卷積網絡層(解池化和反卷積)的比較。資料來源:H. Noh 等人。(2015)
作者分析了反卷積特征圖,他們注意到低層特征圖是特定於形狀的,而高層特征圖有助於對提案進行分類。最后,當一張圖像的所有proposals被整個網絡處理后,將這些地圖連接起來,得到完全分割的圖像。該網絡在 2012 PASCAL VOC 分割挑戰中獲得了 72.5% 的 mIoU。

全網架構。卷積網絡基於 VGG16 架構。反卷積網絡使用反池化和反卷積層。資料來源:H. Noh 等人。(2015)
U-Net
O. Ronneberger 等人。(2015)擴展了J. Long 等人的 FCN。(2015)用於生物顯微鏡圖像。作者創建了一個稱為 U-net 的網絡,由兩部分組成:一個用於計算特征的收縮部分和一個用於對圖像中的模式進行空間定位的擴展部分。下采樣或收縮部分具有類似 FCN 的架構,通過 3x3 卷積提取特征。上采樣或擴展部分使用上卷積(或反卷積)減少特征圖的數量,同時增加它們的高度和寬度。從網絡的下采樣部分裁剪的特征圖被復制到上采樣部分,以避免丟失模式信息。最后,1x1 卷積處理特征圖以生成分割圖,從而對輸入圖像的每個像素進行分類。從那時起,U-net 架構在最近的作品(FPN、PSPNet、DeepLabv3 等)中得到了廣泛的擴展。請注意,它不使用任何全連接層。結果,模型的參數數量減少了,並且可以使用小的標記數據集(使用適當的數據增強)進行訓練。例如,作者在實驗期間使用了一個包含 30 張圖像的公共數據集進行訓練。

給定輸入圖像的 U-net 架構。藍色框對應於具有表示形狀的特征圖塊。白框對應於復制和裁剪的特征圖。資料來源:O. Ronneberger 等人。(2015)
Feature Pyramid Network (FPN)
特征金字塔網絡
特征金字塔網絡 (FPN) 由 T.-Y 開發。Lin et al (2016)用於對象檢測或圖像分割框架。它的架構由自下而上的路徑、自上而下的路徑和橫向連接組成,以連接低分辨率和高分辨率特征。自下而上的路徑將任意大小的圖像作為輸入。它使用卷積層進行處理,並通過池化層進行下采樣。請注意,每一束大小相同的特征圖稱為一個階段,每個階段的最后一層的輸出是用於金字塔級別的特征。自上而下的路徑包括使用 unpooling 對最后的特征圖進行上采樣,同時使用橫向連接使用自下而上路徑的同一階段的特征圖增強它們。這些連接包括將使用 1x1 卷積(以減小其維度)處理的自下而上路徑的特征圖與自上而下路徑的特征圖合並。

具有橫向連接和特征圖總和的自上而下塊過程的詳細信息。資料來源:T.-Y。林等人(2016)
然后通過 3x3 卷積處理連接的特征圖以產生階段的輸出。最后,自上而下路徑的每個階段都會生成一個預測來檢測物體。對於圖像分割,作者使用兩個多層感知器 (MLP) 在對象上生成兩個不同大小的掩碼。它的工作原理類似於帶有錨框的區域建議網絡 (R-CNN R. Girshick et al. (2014)、Fast R-CNN R. Girshick et al. (2015)、Faster R-CNN S. Ren et al. (2016 ) )等等)。這種方法是有效的,因為它可以更好地將低信息傳播到網絡中。基於 DeepMask ( P. 0. Pinheiro et al. (2015) ) 和 SharpMask ( P. 0. Pinheiro et al. (2016)的 FPN) 框架在 2016 年 COCO 分割挑戰中獲得了 48.1% 的平均召回率 (AR) 分數。

架構比較。(a):圖像以多種尺寸進行縮放,每個尺寸都經過卷積處理,以提供計算量大的預測。(b):圖像具有由 CNN 處理的單一尺度,具有卷積和池化層。© CNN 的每一步都用於提供預測。(d) FPN 的架構,左側自下而上,右側自上而下。資料來源:T.-Y。林等人(2016)
Pyramid Scene Parsing Network (PSPNet)
H.趙等人。(2016)開發了金字塔場景解析網絡(PSPNet),以更好地學習場景的全局上下文表示。使用具有擴張網絡策略¹的特征提取器(ResNet K. He et al. (2015))從輸入圖像中提取模式。特征圖為金字塔池化模塊提供數據以區分不同尺度的模式。它們用四種不同的尺度進行池化,每一種對應於一個金字塔級別,並由一個 1x1 卷積層處理以減小它們的尺寸。這樣,每個金字塔級別都會分析圖像中具有不同位置的子區域。金字塔級別的輸出被上采樣並連接到初始特征圖,最終包含局部和全局上下文信息。然后,它們由卷積層處理以生成逐像素預測。具有預訓練 ResNet(使用 COCO 數據集)的最佳 PSPNet 在 2012 PASCAL VOC 分割挑戰中達到了 85.4% 的 mIoU 分數。

PSPNet 架構。輸入圖像 (a) 由 CNN 處理以生成特征圖 (b)。他們提供一個金字塔池化模塊©,最后一個卷積層生成像素預測。資料來源:H. Zhao 等。(2016)
Mask R-CNN
K. 他等人。(2017)發布了 Mask R-CNN 模型,在許多 COCO 挑戰中擊敗了之前的所有基准²。我已經在我之前的博客文章中提供了有關用於對象檢測的 Mask R-CNN 的詳細信息。提醒一下,用於對象檢測的 Faster R-CNN ( S. Ren et al. (2015) ) 架構使用區域提議網絡(RPN) 來提議候選邊界框。RPN 提取感興趣區域(RoI) 和RoIPool層從這些提議中計算特征,以推斷邊界框坐標和對象的類別。Mask R-CNN 是一個 Faster R-CNN,具有 3 個輸出分支:第一個計算邊界框坐標,第二個計算關聯類,最后一個計算二進制掩碼³以分割對象。二進制掩碼具有固定大小,由 FCN 針對給定的 RoI 生成。它還使用RoIAlign層而不是 RoIPool 來避免由於 RoI 坐標的量化而導致的錯位。Mask R-CNN 模型的特殊性在於它的多任務損失結合邊界框坐標、預測類別和分割掩碼的損失。該模型試圖解決互補的任務,從而在每個單獨的任務上獲得更好的表現。最好的 Mask R-CNN 使用 ResNeXt ( S. Xie et al. (2016) ) 來提取特征和 FPN 架構。它在 2016 年 COCO 分割挑戰中獲得了 37.1% 的 AP 分數,在 2017 年 COCO 分割挑戰中獲得了 41.8% 的 AP 分數。

Mask R-CNN 架構。第一層是提取 RoI 的 RPN。第二層處理 RoI 以生成特征圖。它們直接用於計算邊界框坐標和預測類別。特征圖也由 FCN(第三層)處理以生成二進制掩碼。資料來源:K. He 等人。(2017)
DeepLab、DeepLabv3 和 DeepLabv3+
DeepLab
靈感來自 T.-Y 的 FPN 模型。Lin 等人 (2016),L.-C. 陳等人。(2017)發布了 DeepLab,結合了多孔卷積、空間金字塔池和完全連接的 CRF。本文介紹的模型也稱為 DeepLabv2,因為它是對初始 DeepLab 模型的調整(為了避免冗余,將不提供有關初始模型的詳細信息)。根據作者的說法,連續的最大池化和跨步降低了深度神經網絡中特征圖的分辨率。他們引入了空洞卷積,基本上是H. Zhao 等人的擴張卷積。(2016). 它由以固定速率針對稀疏像素的過濾器組成。例如,如果比率等於 2,則過濾器以輸入中的二分之一像素為目標;如果比率等於 1,則 atrous 卷積是基本卷積。Atrous 卷積允許捕獲多個尺度的對象。當它在沒有最大池化的情況下使用時,它會在不增加權重數量的情況下增加最終輸出的分辨率。

低分辨率輸入上的標准卷積(頂部)和高分辨率輸入(底部)上速率為 2 的空洞卷積之間的提取模式比較。資料來源:L.-C。陳等人。(2017)
Atrous Spatial Pyramid Pooling包括應用多個具有不同速率的相同輸入的 atrous 卷積來檢測空間模式。特征圖在單獨的分支中處理,並使用雙線性插值連接以恢復輸入的原始大小。輸出提供一個完全連接的條件隨機場 (CRF) ( Krähenbühl 和 V. Koltun (2012) ),計算特征和長期依賴關系之間的邊緣以產生語義分割。

Atrous Spatial Pyramid Pooling (ASPP) 利用多尺度對象對中心像素進行分類。資料來源:L.-C。陳等人。(2017)
使用 ResNet-101 作為主干的最佳 DeepLab 在 2012 年 PASCAL VOC 挑戰中的 mIoU 得分達到 79.7%,在 PASCAL-Context 挑戰中的 mIoU 得分為 45.7%,在 Cityscapes 挑戰中的 mIoU 得分為 70.4%。

DeepLab 框架。資料來源:L.-C。陳等人。(2017)
DeepLabv3
L.-C. 陳等人。(2017 年)重新審視了 DeepLab 框架,以創建 DeepLabv3,結合了多孔卷積的級聯和並行模塊。作者修改了 ResNet 架構,以使用 atrous 卷積將高分辨率特征圖保留在深層塊中。

ResNet 架構中的級聯模塊。資料來源:L.-C。陳等人。(2017)
並行的空洞卷積模塊在空洞空間金字塔池(ASPP)中分組。在 ASPP 中添加了 1x1 卷積和批量歸一化。所有輸出都由另一個 1x1 卷積連接和處理,以創建帶有每個像素的 logits 的最終輸出。

Deeplabv3 框架中的 Atrous Spatial Pyramid Pooling。資料來源:L.-C。陳等人。(2017)
在 ImageNet 和 JFT-300M 數據集上預訓練 ResNet-101 的最佳 DeepLabv3 模型在 2012 年 PASCAL VOC 挑戰賽中達到了 86.9% 的 mIoU 分數。它還在 Cityscapes 挑戰賽中獲得了 81.3% 的 mIoU 分數,該模型僅使用相關的訓練數據集進行了訓練。
DeepLabv3+
L.-C. 陳等人。(2018)終於發布了使用編碼器-解碼器結構的 Deeplabv3+ 框架。作者介紹了由深度卷積(輸入的每個通道的空間卷積)和點卷積(1x1 卷積,深度卷積作為輸入)組成的空洞可分離卷積。

Depthwise 卷積 (a) 和 Pointwise 卷積 (b) 的組合以創建 Atrous Separable Convolution(速率為 2)。資料來源:L.-C。陳等人。(2018)
他們使用 DeepLabv3 框架作為編碼器。性能最高的模型具有改進的 Xception ( F. Chollet (2017) ) 主干,具有更多層、多孔深度可分離卷積,而不是最大池化和批量歸一化。ASPP 的輸出由 1x1 卷積處理,並向上采樣 4 倍。編碼器主干 CNN 的輸出也由另一個 1x1 卷積處理,並與之前的卷積連接。特征圖提供兩個 3x3 卷積層,輸出被上采樣 4 倍以創建最終的分割圖像。

DeepLabv3+ 框架:具有主干 CNN 和 ASPP 的編碼器產生特征表示,以提供具有 3x3 卷積的解碼器,從而產生最終的預測圖像。資料來源:L.-C。陳等人。(2018)
在 COCO 和 JFT 數據集上預訓練的最佳 DeepLabv3+ 在 2012 PASCAL VOC 挑戰賽中獲得了 89.0% 的 mIoU 分數。在 Cityscapes 數據集上訓練的模型在相關挑戰中達到了 82.1% 的 mIoU 分數。
Path Aggregation Network (PANet)
路徑聚合網絡 (PANet)
S.劉等人。(2018)最近發布了路徑聚合網絡(PANet)。該網絡基於 Mask R-CNN 和 FPN 框架,同時增強了信息傳播。網絡的特征提取器使用 FPN 架構,具有新的增強自下而上路徑,改善了低層特征的傳播。第三條路徑的每個階段都將前一階段的特征圖作為輸入,並使用 3x3 卷積層對其進行處理。使用橫向連接將輸出添加到自上而下路徑的同一階段特征圖,這些特征圖為下一階段提供信息。

自上而下路徑和增強的自下而上路徑之間的橫向連接。資料來源:S. Liu 等人。(2018)
增強的自下而上路徑的特征圖與 RoIAlign 層池化,以從所有級別的特征中提取建議。自適應特征池化層使用全連接層處理每個階段的特征圖,並將所有輸出連接起來。

數據特征池化層。資料來源:S. Liu 等人。(2018)
自適應特征池化層的輸出與 Mask R-CNN 類似,提供三個分支。前兩個分支使用全連接層來生成邊界框坐標和相關對象類的預測。第三個分支使用 FCN 處理 RoI,以預測檢測到的對象的二進制像素級掩碼。作者添加了一條路徑,用於處理具有全連接層的 FCN 卷積層的輸出,以改善預測像素的定位。最后,並行路徑的輸出被重新整形並連接到 FCN 的輸出,生成二進制掩碼。

PANet 的分支使用 FCN 和具有全連接層的新路徑預測二進制掩碼。來源:https 😕/arxiv.org/pdf/1803.01534.pdf
PANet 使用 ResNeXt 作為特征提取器在 2016 年 COCO 分割挑戰中取得了 42.0% 的 AP 分數。他們還使用七個特征提取器的集合以 46.7% 的 AP 分數執行了 2017 年 COCO 分割挑戰:ResNet ( K. He et al. (2015)、ResNeXt ( S. Xie et al. (2016) ) 和 SENet ( J. . 胡等人(2017))。

PANet 架構。(a):使用 FPN 架構的特征提取器。(b):新的增強自下而上的路徑添加到 FPN 架構中。©:自適應特征池化層。(d):預測邊界框坐標和目標類別的兩個分支。(e):預測對象二進制掩碼的分支。虛線對應於低級和高級模式之間的鏈接,紅色的在 FPN 中,包含超過 100 層,綠色的是 PANet 中的捷徑,由不到 10 層組成。資料來源:S. Liu 等人。(2018)
Context Encoding Network (EncNet)
上下文編碼網絡 (EncNet)
H.張等人。(2018)創建了一個上下文編碼網絡 (EncNet),用於捕獲圖像中的全局信息以改進場景分割。該模型首先使用基本特征提取器 (ResNet),並將特征圖輸入到上下文編碼模塊中,該模塊受H. Zhang 等人的編碼層啟發。(2016 年)。基本上,它學習視覺中心和平滑因子來創建一個嵌入,同時考慮到上下文信息,同時突出顯示依賴於類的特征圖。在該模塊之上,上下文信息的比例因子通過特征圖注意力層(全連接層)來學習。同時,語義編碼損失(SE-Loss) 對應於二元交叉熵損失,通過檢測對象類別的存在來規范模塊的訓練(與像素損失不同)。上下文編碼模塊的輸出通過擴張卷積策略進行重塑和處理,同時最小化兩個 SE 損失和最終的像素損失。最好的 EncNet 在 PASCAL-Context 挑戰中達到了 52.6% 的 mIoU 和 81.2% 的 pixAcc 分數。它還在 2012 年 PASCAL VOC 分割挑戰中獲得了 85.9% 的 mIoU 分數。

空洞卷積策略。藍色為卷積濾波器,D 為膨脹率。在第三和第四階段之后應用 SE 損失(語義編碼損失)來檢測對象類別。應用最終的 Seg-loss(逐像素損失)來改進分割。資料來源:H. Zhang 等人。(2018)

EncNet 的架構。特征提取器生成特征圖作為上下文編碼模塊的輸入。該模塊使用語義編碼損失進行正則化訓練。模塊的輸出通過擴張卷積策略處理以產生最終分割。資料來源:[ H. Zhang et al. (2018)
總結
圖像語義分割是端到端深度神經網絡最近面臨的挑戰。所有架構之間的主要問題之一是考慮輸入的全局視覺上下文以改進分割的預測。最先進的模型使用架構試圖鏈接圖像的不同部分,以了解對象之間的關系。
模型在 2012 PASCAL VOC 數據集 (mIoU)、PASCAL-Context 數據集 (mIoU)、2016 / 2017 COCO 數據集 (AP 和 AR) 和 Cityscapes 數據集 (mIoU) 上的得分概覽
對整個圖像的逐像素預測允許以高精度更好地理解環境。場景理解也可以通過關鍵點檢測、動作識別、視頻字幕或視覺問答來實現。在我看來,分割任務與使用多任務損失的這些其他問題相結合,應該有助於超越對場景的全局上下文理解。
最后,我要感謝Long Do Cao幫助我完成所有的帖子,如果你正在尋找一位優秀的高級數據科學家,你應該查看他的個人資料;)。
¹:擴張卷積層已由 F. Yu 和 V. Koltun (2015)。它是一個帶有擴展過濾器的卷積層(過濾器的神經元不再並排)。擴張率在像素方面固定了兩個神經元之間的差距。DeepLab 部分提供了更多詳細信息。
²:物體檢測、物體分割和關鍵點檢測。
³:Mask R-CNN 模型為預測類別的對象計算二進制掩碼(實例優先策略),而不是將每個像素分類為一個類別(分割優先策略)。
