實例分割綜述(單階段/兩階段/實時分割算法匯總)


作者:Danny明澤

來源:公眾號@3D視覺工坊

鏈接:實例分割綜述(單階段/兩階段/實時分割算法匯總)

簡介

目標檢測或定位是數字圖像從粗到細的一個漸進過程。它不僅提供了圖像對象的類,還提供了已分類圖像中對象的位置。位置以邊框或中心的形式給出。語義分割通過對輸入圖像中每個像素的標簽進行預測,給出了較好的推理。每個像素都根據其所在的對象類進行標記。為了進一步發展,實例分割為屬於同一類的對象的單獨實例提供了不同的標簽。因此,實例分割可以定義為同時解決目標檢測問題和語義分割問題的技術。本文對實例分割的背景、存在的問題、技術、發展、流行的數據集、相關工作以及未來的發展進行了討論。本文為想在實例分割領域進行研究的人們提供了有價值的信息。

背景

分類可被定義為預測圖像中一個對象的類別,或根據其分類分數提供圖像中對象的類別列表。目標檢測或定位是一個從粗推理到精推理的漸進過程,它不僅提供了圖像目標的類別,還以邊界框或中心的形式給出了分類后的圖像目標的位置。語義分割的目的是通過對圖像中每個像素點的標簽進行預測,得到精確的推理結果。每個像素都根據其所在的對象或區域進行分類標記。按照這個方向,實例分割為屬於同一對象類的不同對象實例提供了不同的標簽。因此,實例分割可以定義為尋找目標檢測的任務同時解決語義分割。將每個分割后的對象分解為各自的子成分。下圖描述了圖像分割的演變過程。

問題

語義分割的思想是開發一種在分割精度和分割效率兩個方面都表現良好的技術/算法。更好的分割精度包括精確的定位和識別物體的圖像/框架,結果分類在實際場景相關的各種各樣的對象可以區分,屬於同一類的對象的實例受類內外觀變化的影響,可能被局部化和識別(即更好的魯棒性)。更好的分割效率是指分割算法的計算量。它指的是有效的實時計算成本(如可接受的內存/存儲需求),以及對處理器的較小負擔。小對象的實例分割仍然是一個問題。CNN按層次計算特征,因此在默認情況下,特征層中的下采樣層會形成一個內建的多尺度金字塔,進而生成不同分辨率的特征圖。這會導致一些問題。例如,CNN層越深,接受域越廣,對位姿、變形、光照等變化的魯棒性越強,但分辨率越低,細節丟失。相對而言,較低的CNN層接收域較窄,細節更豐富,但分辨率更高,對語義的敏感性更低。對象的語義屬性出現在不同的層中,而這些層又取決於對象的大小。因此,如果一個物體很小,它的細節在淺的CNN層中會更少,同樣的細節在較高的層中幾乎會消失。這個問題使得小對象檢測非常具有挑戰性。各種各樣的技術已經被提出來解決這個問題,例如帶孔卷積和提高特征的分辨率。然而,這些技術導致更高的計算復雜度。此外,如果對象很大,那么它的語義概念將在更高的層中得到反映。許多技術已經被開發出來,通過使用不同的CNN層來提高檢測精度。幾何變換的處理問題。就幾何變換而言,DCNNs本質上不能是空間不變的。DCNN層中的局部最大池化使網絡具有某種程度的平移不變性。盡管如此,特征的中間映射實際上並不是變換不變的。處理圖像退化也是一個問題。現實圖像中的噪聲是一個問題。這通常是由照明問題、相機質量差、圖像壓縮等引起的。雖然低質量的圖像往往降低其識別,ImageNet、Microsoft COCO、PASCAL VOC等圖像數據庫都使用高質量的圖像,這就證明了這一點。

實例分割

實例分割已成為機器視覺研究中比較重要、復雜和具有挑戰性的領域之一。為了預測對象類標簽和特定於像素的對象實例掩碼,它對各種圖像中出現的對象實例的不同類進行本地化。實例分割的目的主要是幫助機器人,自動駕駛,監視等。

實例分割技術

Mask proposal分類

如圖所示. 掩模建議技術分類的一般框架在深度學習流行之前,之前的技術依賴於自下而上的生成mask proposal。隨后,被具有更高效結構的新技術所取代,如RCNN。盡管RCNN在分割精度上有一定的提高,但訓練是一個基於多階段的管道,這是緩慢的,很難優化,因為訓練每個階段需要分開。在CNN的每張圖像中,每個方案都需要提取特征,這就分別導致了存儲、時間和檢測尺度的問題。測試也很慢,因為需要提取CNN的特征。隨后,又出現了Fast RCNN和Faster RCNN,解決了它的問題。1.先檢測,然后分割實例分割的流行方法包括使用一個邊界框來檢測對象,然后是對象框分割。下圖展示了此類技術的一般框架。

基於掩模的技術在這方面最成功的技術之一是Mask RCNN。使用相對簡單的Mask predictor擴展了更快的R-CNN檢測算法。Mask RCNN易於訓練,具有更好的泛化能力,只會給更快的R-CNN增加很小的計算開銷。前者運行速度為5幀/秒。基於Mask R-CNN的實例分割方法在最近的實例分割挑戰中顯示了良好的結果。其它技術(檢測物體邊界框)滑動窗口技術基於區域的技術2.標記像素,然后聚類對圖像的每個像素進行分類標記。接下來是使用聚類算法將像素分組到對象實例中。下圖顯示了一般框架。

該方法受益於語義分割,可以預測高分辨率的對象掩模。與分割檢測跟蹤技術相比,標簽像素跟蹤聚類方法在經常使用的基准上精度較低。由於像素標記需要密集的計算,通常需要更多的計算能力。3.密集滑動窗口法這類技術的一般框架如下圖所示:

張量掩模

與DeepMask和InstanceFCN不同,TensorMask涉及對多個類的分類,這是與預測mask並行完成的。這個特性對於實例分割非常有用。下表給出了值得注意的方法的分類。

接下來說一說實例分割的演變

前面你說到實例分割不是一個孤立的任務,有目標檢測和語義分割發展而來,時間軸如下圖所示:

RCNN:

RCNN集成了AlexNet和使用選擇性搜索技術的區域方案。RCNN模型的訓練包括以下步驟。第一步涉及計算使用選擇性搜索獲得的類不可知區域建議。下一步是CNN模型微調,包括使用區域建議微調預先訓練的CNN模型,如AlexNet。接下來,利用CNN提取的特征來訓練一組類特異性支持向量機(SVM)分類器,該分類器取代了通過微調學習的softmax分類器。然后使用CNN獲得的特征對每個對象類進行類特異性邊界盒回歸訓練。雖然RCNN取得了較高的目標檢測質量,但它也存在一些明顯的缺陷。例如,多階段的訓練是緩慢和困難的,因為每個階段都必須單獨訓練。另外,分別訓練SVM分類器和BBox回歸器需要更多的資源和時間。最后,測試速度很慢,因為在沒有共享計算的情況下,每個測試圖像中的每個對象提案都需要從CNN中提取特征。RCNN的這些問題激發了其他技術的發展,這導致了改進的檢測框架的誕生,例如快速RCNN和更快的RCNN。Fast RCNN

Fast RCNN解決了RCNN的一些問題,從而提高了目標檢測能力。Fast RCNN使用檢測器的端到端訓練。它通過同時學習softmax分類器和類特定的BBox回歸簡化了訓練過程,而不是像RCNN那樣單獨訓練模型的各個組件。快速RCNN共享區域方案的卷積計算,然后在最后一個卷積層和第一個全連接層之間添加一個ROI池化層,提取每個區域方案的特征。聚類利用特征層扭曲的概念來實現圖像層扭曲。將ROI池化層特征分解為一組全連通層,最后分解為目標類別預測軟最大概率和類別建議精細化偏移量兩層。與RCNN相比,Fast RCNN在很大程度上提高了效率,訓練速度提高了3倍,測試速度提高了10倍。Faster RCNN

雖然Fast RCNN顯著提高了檢測速度,但它仍然依賴於外部區域建議,計算是Fast RCNN的速度瓶頸。此時,CNNs在卷積層中具有目標定位能力,而在全連接層中這種能力會減弱。因此,用CNN代替選擇性搜索產生區域建議是可行的。Faster RCNN有區域建議網絡(Region Proposal Network, RPN)用於生成區域建議,高效准確。采用相同的骨干網,從最后一個共享的卷積層中提取特征,完成RPN的區域划分和快速RCNN的區域分類。Mask R-CNN

Mask R-CNN,一個相對簡單和靈活的實例分割模型。該模型通過目標檢測進行了實例分割,同時生成了高質量的掩模。通常,Faster R-CNN有一個用於識別物體邊界框的分支。Mask R-CNN並行添加了一個對象蒙版預測分支作為改進。使用FPN主干的head架構如圖所示。

MaskLabMaskLab改進了Faster R-CNN,並產生兩個額外的輸出,即語義分割和實例中心方向。Faster R-CNN給出的預測框將具有不同尺度的對象實例帶入一個標准尺度,然后MaskLab在每個預測框內同時使用語義分割和方向預測進行前景和背景分割。為了區分不同語義類別的對象,采用了對分類數據進行像素級編碼的語義分割預測方法。該技術消除了重復的背景編碼。此外,方向預測還被用於具有共同語義標簽的對象實例的分離。Non-local Neural Networks這個非局部神經網絡可以說是圖像里面Attention的鼻祖,它是第一篇把注意力機制應用到圖像領域,隨后就有了大家熟悉的SENet,SKNet,GCNet,Residual Attention Network, CAM, BAM等等。

非局部意味着是一種濾波技術,它計算圖像中所有像素的加權平均值。在這樣做的時候,它允許在一個基於路徑外觀相似度的位置上,遠距離像素對濾波響應做出貢獻。這一想法是由塊匹配3D (BM3D) (Block-matching 3D)相繼發展起來的。長期依賴已通過圖形模型來建模,例如條件隨機場(CRF)。CRF中的平均場推理可以轉化為遞歸網絡,然后可以進行訓練。與機器翻譯中使用的自我注意方法有關。自我關注膠囊通過觀察所有位置,然后在嵌入空間內取其加權平均值,計算出序列中某個位置的響應。自注意可以看作是一種非局部均值,因此可以將機器翻譯中的自注意與機器視覺中適用於圖像和視頻問題的一般非局部過濾操作聯系起來。路徑聚合網絡(PANet)提出了一種用於實例分割任務的基於框架,旨在提高信息的流動。改進了深層網絡的特征層次,在底層使用與定位相關的特定信號。這個過程稱為自底向上路徑增強。它使得底層和深層網絡頂層特征之間的信息路徑更短。還提出了一種被稱為自適應特性池的技術,它將特征網格和所有層次的特征聯系起來。由於這種技術,在每一級特征的相關信息流到后續子網絡用於產生建議。一個備用的分支段捕獲各種提議視圖,以增強生成掩碼的預測。

混合任務級聯最佳級聯實例分割的關鍵是最大限度地利用對象檢測和對象實例分割之間的反向關系。混合任務級聯或HTC與傳統級聯在兩個重要方面有所不同。首先,HTC並沒有對這兩個任務進行層疊處理,而是以組合的方式分多個階段進行處理。其次,它使用一個完全卷積的片段來提供空間上下文。這有助於區分前景和嘈雜的背景。作者稱,HTC能夠學習更多有用的功能,通過整合功能,這些功能是互補的,逐步與每個階段。

GCNet

由非局部網絡建模的全局上下文對於整個圖像的不同查詢位置幾乎是相同的。利用這一發現創建了一個基於獨立查詢公式的簡單網絡。提出的網絡保持了非局部網絡的准確性,但用更少的計算開銷。GCNet的設計在結構上類似於擠壓激發網絡(SENet)。用一個三步的通用模型來建模全球上下文。在通用模型內部,已經設計了一個更有效的實例化,稱為全局上下文(GC)塊。該塊是輕量級的,能夠高效地建模全局上下文。輕量級的事實允許設計者在網絡的多個層之間應用它,從而構建一個全局上下文網絡(GCNet)。Mask Scoring R-CNN在Mask R-CNN上增加了一個額外的Mask Head模塊,學習Mask-iou一致的Mask分數。Mask R-CNN與MaskIoU Head結合,結合實例特征和預測的Mask。這種安排用於預測輸入掩模和ground truth掩模之間的損失。圖下顯示了Mask Scoring R-CNN架構。

在COCO dataset數據集上的實驗比較結果:

總結

本文對實例分割進行了概述。圖像分割從粗推理發展到細推理。隨着計算能力和研究能力的提高,這種演變已經發展到實例分割,並將繼續下去。本文討論了重要的實例分割問題。從整體和個別的角度討論了用於實例分割的各種技術。討論了它們的分類、優缺點。討論了實例分割中常用的數據集及實驗結果。實例分割也是圖像分割前沿的研究方向,任務更具有挑戰性,天池大賽也有實例分割的賽題,現在已經進行到賽季2了,還有一些新的任務,比如視頻全景分割更是很前沿和挑戰的任務。本文僅做學術分享,如有侵權,請聯系刪文。下載1在「3D視覺工坊」公眾號后台回復:3D視覺即可下載 3D視覺相關資料干貨,涉及相機標定、三維重建、立體視覺、SLAM、深度學習、點雲后處理、多視圖幾何等方向。
下載2「3D視覺工坊」公眾號后台回復:3D視覺優質源碼即可下載包括結構光、標定源碼、缺陷檢測源碼、深度估計與深度補全源碼、點雲處理相關源碼、立體匹配源碼、單目、雙目3D檢測、基於點雲的3D檢測、6D姿態估計源碼匯總等。
下載3「3D視覺工坊」公眾號后台回復:相機標定即可下載獨家相機標定學習課件與視頻網址;后台回復:立體匹配即可下載獨家立體匹配學習課件與視頻網址。




免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM