閱讀筆記--[CVPR2021] Omni-supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning


Abstract

  • 由於之前的監督學習僅針對神經網絡中的輸出結果進行預測,因此隱藏層特征通常無法學習到3D分割的信息表達,然而這個問題可以通過對中間層的多尺度監督來解決。
  • 在本文中,作者首次提出了基於漸進感受野分量推理(RFCR)的全尺寸監督點雲分割方法,其中目標感受野局部區域編碼 (RFCCs)的目的是記錄編碼器中隱藏單元的感受野區域的類別。然后目標RFCCs將監督解碼器以從粗到細的類別推理方式逐步推斷RFCC,最終獲得目標語義標簽。
  • 由於許多隱藏層特征不活躍,並且對RFCC預測的貢獻很小,因此作者提出了一種具有離心趨勢的特征密集化以獲取更明確的特征,這實際上相當於對特征進行熵值的正則化。更多活躍的特征可以進一步釋放全尺度監督方法的潛力。

Introduction

  • 在以前典型的編碼-解碼架構中,網絡僅對最后一層的點進行監督,然而這忽略了其他層的隱藏單元,缺乏直接監督來提具有信息量的特征。換句話說,多尺度/全方位的監督是必要的。
  • 與2D圖像不同,由於點雲的不規則性,采樣點與原始點雲之間沒有固定的映射關系,很難將點雲通過簡單的平鋪或插值將隱藏特征上采樣到原始分辨率。此外,使用常用的最近鄰上采樣方法無法追蹤編碼關系,從而對中間特征引入了不正確的監督。
  • 為了解決上述問題,作者提出了一種通過漸進感受局部區域推理的全方位監督方法。作者沒有將隱藏特征上采樣到原始分辨率,而是設計了一個感受局部區域代碼(RFCC)來有效地跟蹤編碼關系並表示每個隱藏單元的感受區域的類別。從而實現在所有尺度上監督網絡。具體來說,在解碼階段,目標RFCCs將監督網絡以預測不同尺度的RFCCs,這個過程就變相理解為就一個漸進的推理過程。
  • 此外,作者為了進一步釋放全尺度監督的潛力,提取更多的活躍特征(即具有較大量級的特征)來實現RFCC預測,作者又提出了一種潛在函數的特征密集化方法,該潛在特征實際上相當於特征的一個熵損失計算。

Method

Overview

image

Receptive Field Component Code(RFCC)

  • 在原始點雲中標記一個點的標簽是容易的。然而,給任何從其感受野內接收信息的下采樣點雲中的一個點貼上標簽並不容易。因此作者設計了RFCC來表示編碼器中采樣點感受野內的所有類別。

  • 在編碼階段,目標RFCCs與特征的卷積和采樣一起生成。換句話說,在編碼階段(圖2中頂部分支的左側部分)和RFCC生成階段(圖2(a))之間共享采樣,因此,即使在點雲的采樣是一個隨機過程情況下,生成的目標RFCCs依然可以精確地記錄感受野中的類別成分。

  • RFCC的目的是為編碼器的任意一層中的每個點設計多熱標簽。具體來說,在語義分割任務中,我們需要將每個點分類為 \(C\) 個類別,RFCC則是為每個點設計一個 \(1×C\) 的二進制向量。

  • 給定編碼器第\(l\)層中第\(i\)個點 \(p_i^l\),目標RFCC \(g_i^l\) 表示存在於 \(p_i^l\) 感受野中的對象類別,每個元素 \(g_i^l[k]\) 表示類別k的存在。基於這個定義,首先將輸入點的one-hot標簽分配給輸入層中的RFCC \(g_i^1\),因為 \(p_i\) 的感受野只包含 \(p_i\) 本身:
    image

  • 如圖2(a)所示,我們可以沿着RFCCs中3D Convs的前一層 \(g^{l-1}_i\)獲得 \(g^l_i\)
    image

    其中,\(k\epsilon [1,C]\)\(j\)是第\(l-1\)層第\(i\)點感受野區域中的點索引。

  • 值得注意的是,RFCC的生成只發生在編碼器中,而不是解碼器中。迭代RFCC的生成,直到到達最中心的層L。通常情況下,當最中心的層只包含一個點[37]時,場景描述符只是一個自然推導的全局管理器。

RFCC Reasoning

  • 網絡的解碼器是在語義分割任務中推斷每個輸入點的類別。在本文中,作者將這個問題分解成更簡單的全局上下文識別問題(預測\(g_i^L\)) 和一系列漸進接受域分量推理問題(從\(g_i^l\)逐步推理\(g_i^{l-1}\),在從跳過鏈接推理附加特征\(\alpha_i^l\),最終得到語義標簽\(g_i^1\))。

  • 如圖二所示,\(\beta_i^l\)是解碼器中采樣點\(p_i^l\)的特征。對於除最后一層之外的每一層譯碼器,應用一個共享的MLP \(M_l\)和一個sigmoid函數\(\sigma\)應用於\(\beta_i^l\)以預測RFCCs \(\tilde{g}_i^l\)
    image

  • 然后,在編碼階段生成的目標RFCC \(g_i^l\)直接用於通過逐層監督 \(L_R^l\) 引導\(\tilde{g}_i^l\)的預測:
    image
    其中,
    image

  • 整個RFCC推理損失可以簡單表示為:
    image

Feature Densification

  • 由於接受場分量推理引入了大量的監督,更主動的特征和明確的信號是必需的。然而,傳統網絡中存在着許多量級很小的非活躍隱藏單元。因此,作者引入了離心勢,使正特征與負特征之間產生低密度分離(即推離0),如圖二(c)所示:image

  • 可以看到勢函數在特征上的負梯度是:
    image

    上式具有與特征相同的符號。這表明此時積極特征將變得更大,而消極特征將變得更小。此外,根據此公式,絕對值較小的特征將獲得較大的梯度。

  • 同時,這種離心勢可以通過簡單的熵損失來實現:
    image

    其中,$ \hat{β}_{i,k}l$是$βl_i$的第k個通道。

  • 另一方面,全尺度監督可以直接放大特征密集化引入的某些信號的的特征。更多明確的特征可以參與到RFCC預測中,有助於學習更好的隱藏層表示,提高語義分割性能。

  • 特征密度化的總損失可以總結為:
    image

  • 所有的監督都可以歸納為:
    image

Experiment

  • Datasets:ScanNet V2,S3DIS,Semantic3D

image

image

image

image

image

image


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM