85.4% mIOU！NVIDIA：使用多尺度注意力進行語義分割，代碼已開源！

本文轉載自查看原文 2020-11-29 17:53 551 Deep Learning

作者：Andrew Tao and Karan Sapra

編譯：ronghuaiyang

論文：https://arxiv.org/abs/2005.10821

代碼鏈接：https://github.com/NVIDIA/semantic-segmentation

有一項重要的技術，通常用於自動駕駛、醫學成像，甚至縮放虛擬背景：“語義分割。這是將圖像中的像素標記為屬於N類中的一個(N是任意數量的類)的過程，這些類可以是像汽車、道路、人或樹這樣的東西。就醫學圖像而言，類別對應於不同的器官或解剖結構。

NVIDIA Research正在研究語義分割，因為它是一項廣泛適用的技術。我們還相信，改進語義分割的技術也可能有助於改進許多其他密集預測任務，如光流預測(預測物體的運動)，圖像超分辨率，等等。

我們開發出一種新方法的語義分割方法，在兩個共同的基准：Cityscapes和Mapillary Vistas上達到了SOTA的結果。IOU是交並比，是描述語義分割預測精度的度量。

在Cityscapes中，這種方法在測試集上達到了85.4 IOU，考慮到這些分數之間的接近程度，這相對於其他方法來說是一個相當大的進步。

在Mapillary上，使用單個模型在驗證集上達到了61.1 IOU，相比於其他的使用了模型集成最優結果是58.7。

預測結果

研究過程

為了開發這種新方法，我們考慮了圖像的哪些特定區域需要改進。圖2顯示了當前語義分割模型的兩種最大的失敗模式：細節錯誤和類混淆。

圖2，舉例說明語義分割的由於尺度原因出現的常見錯誤模式。在第一行中，在縮小了0.5x的圖像中，細細的郵箱被分割得不一致，但是在擴大了2.0x的圖像中，預測得更好。在第二行中，較大的道路/隔離帶區域在較低的分辨率(0.5x)下分割效果較好

在這個例子中，存在兩個問題：細節和類混淆。

第一張圖片中郵箱的細節在2倍尺度的預測中得到了最好的分辨，但在0.5倍尺度下的分辨很差。
與中值分割相比，在0.5x尺度下對道路的粗預測要比在2x尺度下更好，在2x尺度下存在類混淆。

我們的解決方案在這兩個問題上的性能都能好得多，類混淆幾乎沒有發生，對細節的預測也更加平滑和一致。

在確定了這些錯誤模式之后，團隊試驗了許多不同的策略，包括不同的網絡主干(例如，WiderResnet-38、EfficientNet-B4、xcepase -71)，以及不同的分割解碼器(例如，DeeperLab)。我們決定采用HRNet作為網絡主干，RMI作為主要的損失函數。

HRNet已經被證明非常適合計算機視覺任務，因為它保持了比以前的網絡WiderResnet38高2倍分辨率的表示。RMI損失提供了一種無需訴諸於條件隨機場之類的東西就能獲得結構性損失的方法。HRNet和RMI損失都有助於解決細節和類混淆。

為了進一步解決主要的錯誤模式，我們創新了兩種方法：多尺度注意力和自動標記。

多尺度注意力

在計算機視覺模型中，通常采用多尺度推理的方法來獲得最佳的結果。多尺度圖像在網絡中運行，並將結果使用平均池化組合起來。

使用平均池化作為一個組合策略，將所有尺度視為同等重要。然而，精細的細節通常在較高的尺度上被最好地預測，大的物體在較低的尺度上被更好地預測，在較低的尺度上，網絡的感受野能夠更好地理解場景。

學習如何在像素級結合多尺度預測可以幫助解決這個問題。之前就有關於這一策略的研究，Chen等人的Attention to Scale是最接近的。在這個方法中，同時學習所有尺度的注意力。我們將其稱為顯式方法，如下圖所示。

圖3，Chen等人的顯式方法是學習一套固定尺度的密集注意力mask，將它們結合起來形成最終的語義預測。

受Chen方法的啟發，我們提出了一個多尺度的注意力模型，該模型也學會了預測一個密集的mask，從而將多尺度的預測結合在一起。但是在這個方法中，我們學習了一個相對的注意力mask，用於在一個尺度和下一個更高的尺度之間進行注意力，如圖4所示。我們將其稱為層次方法。

圖4，我們的分層多尺度注意力方法。上圖：在訓練過程中，我們的模型學會了預測兩個相鄰尺度對之間的注意力。下圖：推理以鏈式/分層的方式完成，以便將多個預測尺度組合在一起。低尺度注意力決定了下一個更高尺度的貢獻。

這種方法的主要好處如下：

理論訓練成本比Chen方法降低了約4x。
訓練只在成對的尺度上進行，推理是靈活的，可以在任意數量的尺度上進行。

表3，層次多尺度注意力方法與Mapillary驗證集上其他方法的比較。網絡結構為DeepLab V3+和ResNet-50主干。評估尺度：用於多尺度評估的尺度。FLOPS：網絡用於訓練的相對flops。這種方法獲得了最好的驗證集分數，但是與顯式方法相比，計算量只是中等。

圖5顯示了我們的方法的一些例子，以及已學習的注意力mask。對於左邊圖片中郵箱的細節，我們很少關注0.5x的預測，但是對2.0x尺度的預測非常關注。相反，對於右側圖像中非常大的道路/隔離帶區域，注意力機制學會最大程度地利用較低的尺度(0.5x)，以及更少地利用錯誤的2.0x預測。

圖5，兩種不同場景的語義和注意力預測。左邊的場景說明了一個精細的細節問題，而右邊的場景說明了一個大的區域分割問題。白色表示較高的值(接近1.0)。給定像素在所有尺度上的注意力值總和為1.0。左：道路邊的細郵箱在2倍的尺度下得到最好的分辨率，注意力成功地關注了這個尺度而不是其他尺度，這可以從2倍注意力圖像中郵箱的白色中得到證明。右圖：大的道路/隔離帶區域在0.5x尺度下的預測效果最好，並且該區域的注意力確實成功地集中在0.5x尺度上。

自動標記

改進城市景觀語義分割結果的一種常用方法是利用大量的粗標記數據。這個數據大約是基線精標注數據的7倍。過去Cityscapes上的SOTA方法會使用粗標注標簽，或者使用粗標注的數據對網絡進行預訓練，或者將其與細標注數據混合使用。

然而，粗標注的標簽是一個挑戰，因為它們是有噪聲的和不精確的。ground truth粗標簽如圖6所示為“原始粗標簽”。

圖6，自動生成粗圖像標簽的例子。自動生成的粗標簽(右)提供了比原始的ground truth粗標簽(中)更精細的標簽細節。這種更精細的標簽改善了標簽的分布，因為現在小的和大的物品都有了表示，而不是只在主要的大的物品上才有。

受最近工作的啟發，我們將自動標注作為一種方法，以產生更豐富的標簽，以填補ground truth粗標簽的標簽空白。我們生成的自動標簽顯示了比基線粗標簽更好的細節，如圖6所示。我們認為，通過填補長尾類的數據分布空白，這有助於泛化。

使用自動標記的朴素方法，例如使用來自教師網絡的多類概率來指導學生，將在磁盤空間上花費非常大的代價。為20,000張橫跨19個類的、分辨率都為1920×1080的粗圖像生成標簽大約需要2tb的存儲空間。這么大的代價最大的影響將是降低訓練成績。

我們使用硬閾值方法而不是軟閾值方法來將生成的標簽占用空間從2TB大大減少到600mb。在這個方法中，教師預測概率 > 0.5是有效的，較低概率的預測被視為“忽略”類。表4顯示了將粗數據添加到細數據和使用融合后的數據集訓練新學生的好處。

表4，這里顯示的基線方法使用HRNet-OCR作為主干和我們的多尺度注意方法。我們比較了兩種模式：用ground truth 細標簽 + ground truth粗標簽訓練到ground truth 細標簽 + auto-粗標簽(我們的方法)。使用自動粗化標簽的方法在基線上提高了0.9的IOU。

圖7，自動生成粗圖像標簽的例子

最后的細節

該模型使用PyTorch框架在4個DGX節點上對fp16張量核進行自動混合精度訓練。

論文：https://arxiv.org/abs/2005.10821

代碼：https://github.com/NVIDIA/semantic-segmentation

英文原文：https://developer.nvidia.com/blog/using-multi-scale-attention-for-semantic-segmentation/

轉自：https://mp.weixin.qq.com/s?__biz=MzU4OTg3Nzc3MA==&mid=2247484441&idx=1&sn=8019c86d3ddc6ac9aa22916dd12d16fd&chksm=fdc7837ccab00a6a0562e2cc57d2420e6344e43b5fab55a38a7530bffc83f516719321fa4981&mpshare=1&scene=1&srcid=1128HrIPvNnxcv5KbbOJK9Sm&sharer_sharetime=1606641590478&sharer_shareid=6528a9ac8715208e6934a5ebed1c4b91&exportkey=A7Tv%2BwIBtF5RgdTUpcChLbg%3D&pass_ticket=OAun6WQj0hk7PhBoH9Dl9DNqgvoqn3qJ2hlxCd49C54WaNataT8TLqR%2BQIFxNStc&wx_header=0#rd

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 多尺度注意力機制的語義分割語義分割的評價指標MIoU 注意力 Pytorch系列教程-使用Seq2Seq網絡和注意力機制進行機器翻譯注意力機制注意力機制軟性注意力和硬性注意力注意力機制總結注意力機制整理注意力機制【2】- CV中的注意力機制