CVPR2021中的目標檢測和語義分割論文匯總


CVPR2021中的目標檢測和語義分割論文匯總

計算機視覺工坊 昨天
計算機視覺工坊
計算機視覺工坊
專注於計算機視覺、VSLAM、目標檢測、語義分割、自動駕駛、深度學習、AI芯片、產品落地等技術干貨及前沿paper分享。這是一個由多個大廠算法研究人員和知名高校博士創立的平台,我們堅持工坊精神,做最有價值的事~
98篇原創內容
公眾號
作者丨Tom Hardy@知乎來源丨https://zhuanlan.zhihu.com/p/355137468編輯丨計算機視覺工坊感慨:知識蒸餾大放異彩~

目標檢測篇

1、Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detectionpaper鏈接:https://arxiv.org/abs/2103.01903由於真實世界數據固有的長尾分布,few-shot目標檢測是一個重要而持久的問題。它的性能很大程度上受到新類數據稀缺的影響。但是無論數據的可用性如何,新類和基類之間的語義關系都是不變的。這篇paper研究了如何利用這種語義關系和視覺信息,並將顯式關系推理引入到新目標檢測的學習中。 圖片 圖片2、Instance Localization for Self-supervised Detection Pretraining(香港大學,微軟亞洲研究院)paper鏈接:https://arxiv.org/pdf/2102.08318.pdf以往對自監督學習的研究在圖像分類方面取得了相當大的進展,但在目標檢測方面往往存在transfer性能下降的問題。本文的目的是提出一種專門用於目標檢測的自監督預訓練模型。 圖片 圖片3、Towards Open World Object Detectionpaper鏈接:https://arxiv.org/abs/2103.02603人類有識別環境中未知物體實例的本能。人類有一種自然的本能來識別未知環境中的物體實例。這促使我們提出了一個新的計算機視覺問題,稱為“開放世界目標檢測”,模型的任務是:1)在沒有明確監督的情況下,將尚未引入的目標識別為“未知”,2)逐步學習這些已識別的未知類別,而不忘記以前學習的類,當相應的標簽逐漸收到時。本文提出了一種基於對比聚類和基於能量的未知識別的開放世界目標檢測算法。 圖片 圖片4、Positive-Unlabeled Data Purification in the Wild for Object Detection暫未放出5、General Instance Distillation for Object Detectionpaper鏈接:https://arxiv.org/pdf/2103.02340.pdf近年來,知識蒸餾被證明是一種有效的模型壓縮方法。這種方法可以使輕量級的學生模型從較大的教師模型中獲取知識。然而,以往的提取檢測方法對不同檢測框架的泛化能力較弱,嚴重依賴於GT,忽略了實例間有價值的關系信息。因此,論文提出了一種新的基於區分性實例的提取方法,即一般實例提取(GID)。該方法包含了通用實例選擇模塊(GISM),充分利用了基於特征、基於關系和基於響應的知識進行提取。 圖片6、UP-DETR: Unsupervised Pre-training for Object Detection with Transformerspaper鏈接:https://arxiv.org/pdf/2011.09094.pdftransformer+無監督的一篇paper。 圖片 圖片7、Depth from Camera Motion and Object Detectionpaper鏈接:https://arxiv.org/abs/2103.01468本文討論了在給定攝像機運動測量值(如機器人運動學或車輛里程計)的情況下,學習估計被測物體深度的問題。論文通過1)設計一個遞歸神經網絡(DBox),使用box和未校准攝像機運動的廣義表示來估計物體的深度;2)通過運動和檢測數據集(ODMD)引入物體深度。 圖片 圖片 圖片8、There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with Sound by Distilling Multimodal Knowledgepaper鏈接:https://arxiv.org/abs/2103.01353物體固有的聲音屬性可以為學習豐富的物體檢測和跟蹤表示提供有價值的線索。此外,可以利用視頻中視聽事件的同時出現,通過單獨監測環境中的聲音,在圖像場上定位對象。到目前為止,這只適用於攝像機靜止和單目標檢測的場景。此外,這些方法的魯棒性受到限制,因為它們主要依賴於對光照和天氣變化非常敏感的RGB圖像。在這項工作中,我們提出了一個新穎的自監督MM-stewartnet框架,該框架由多個教師組成,他們利用不同的模式,包括RGB、深度和熱圖像,同時利用互補線索並將知識提取到單一音頻學生網絡中。 圖片 圖片9、Dogfight: Detecting Drones from Drone Videos暫未放出10、3DIoUMatch: Leveraging IoU Predictionfor Semi-Supervised 3D Object Detectionpaper鏈接:https://arxiv.org/pdf/2012.04355.pdf三維目標檢測是一項重要而艱巨的任務,它嚴重依賴於難以獲得的三維標注。為了減少所需的監督量,論文提出了一種新的半監督三維物體檢測方法。采用VoteNet(一種流行的基於點雲的目標檢測器)作為主干,利用一個教師學生互學習網絡框架,以偽標簽的形式將信息從標注訓練集傳播到無標注訓練集。 圖片 圖片11、Categorical Depth Distribution Network for Monocular 3D Object Detectionpaper鏈接:https://arxiv.org/abs/2103.01100單目三維目標檢測是自動駕駛領域的一個關鍵問題,與典型的多傳感器系統相比,它提供了一種結構簡單的解決方案。單目三維檢測的主要挑戰在於准確預測目標深度,由於缺乏直接的距離測量,必須從目標和場景線索中推斷出目標深度。許多方法試圖直接估計深度來輔助三維檢測,但由於深度不准確,性能有限。論文提出的分類深度分布網絡(Categorical Depth Distribution Network,CaDDN)利用每個像素的預測分類深度分布,將豐富的上下文特征信息投射到三維空間中適當的深度區間。然后,使用計算效率高的鳥瞰投影和單級檢測器來生成最終的輸出邊界框。我們將CaDDN設計為一種完全可微的端到端方法,用於聯合深度估計和目標檢測。 圖片 圖片 圖片

語義/實例全景/分割篇

1、PointFlow: Flowing Semantics Through Points for Aerial Image Segmentation暫未開放2、Few-Shot Segmentation Without Meta-Learning: A Good Transductive Inference Is All You Need?paper鏈接:https://arxiv.org/abs/2012.06166 圖片 圖片3、4D Panoptic LiDAR Segmentationpaper鏈接:arxiv.org/abs/2102.1247時態語義場景理解是自動駕駛車輛或機器人在動態環境中工作的關鍵。本文提出了4D全景激光雷達分割來分配一個語義類和一個時間上一致的實例ID到一個3D點序列。 圖片4、Towards Semantic Segmentation of Urban-Scale 3D Point Clouds: A Dataset, Benchmarks and Challengespaper鏈接:https://arxiv.org/abs/2102.124725、PLOP: Learning without Forgetting for Continual Semantic Segmentationpaper鏈接:https://arxiv.org/abs/2011.11390目前,深度學習方法廣泛應用於處理語義分割等需要大量數據集和強大計算能力的計算機視覺任務。語義連續學習(CSS)是一個新興的趨勢,它通過不斷地添加新的語義來更新舊的模型語義。本文提出了一種多尺度池蒸餾方案localpod,該方案在特征級保持長、短距離的空間關系。此外,還設計了一個基於熵的偽標號來處理由舊模型預測的背景類,以避免舊類的災難性遺忘。我們的方法稱為PLOP,在現有CSS場景中,以及在新提出的具有挑戰性的基准中,大大超過了最先進的方法。 圖片6、End-to-End Video Instance Segmentation with Transformerspaper鏈接:https://arxiv.org/abs/2011.14503使用Transformers進行視頻實例分割~ 圖片 圖片本文僅做學術分享,如有侵權,請聯系刪文。 下載1在「計算機視覺工坊」公眾號后台回復: 深度學習,即可下載深度學習算法、3D深度學習、深度學習框架、目標檢測、GAN等相關內容近30本pdf書籍。
下載2在「計算機視覺工坊」公眾號后台回復: 計算機視覺,即可下載計算機視覺相關17本pdf書籍,包含計算機視覺算法、Python視覺實戰、Opencv3.0學習等。
下載3在「計算機視覺工坊」公眾號后台回復: SLAM,即可下載獨家SLAM相關視頻課程,包含視覺SLAM、激光SLAM精品課程。

重磅!計算機視覺工坊-學習交流群已成立

掃碼添加小助手微信,可申請加入3D視覺工坊-學術論文寫作與投稿 微信交流群,旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。

同時也可申請加入我們的細分方向交流群,目前主要有ORB-SLAM系列源碼學習、3D視覺CV&深度學習SLAM三維重建點雲后處理自動駕駛、CV入門、三維測量、VR/AR、3D人臉識別、醫療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產品落地、視覺競賽、車牌識別、硬件選型、深度估計、學術交流、求職交流等微信群,請掃描下面微信號加群,備注:”研究方向+學校/公司+昵稱“,例如:”3D視覺 + 上海交大 + 靜靜“。請按照格式備注,否則不予通過。添加成功后會根據研究方向邀請進去相關微信群。原創投稿也請聯系。

圖片▲長按加微信群或投稿

圖片

▲長按關注公眾號

3D視覺從入門到精通知識星球:針對3D視覺領域的知識點匯總、入門進階學習路線、最新paper分享、疑問解答四個方面進行深耕,更有各類大廠的算法工程人員進行技術指導。與此同時,星球將聯合知名企業發布3D視覺相關算法開發崗位以及項目對接信息,打造成集技術與就業為一體的鐵桿粉絲聚集區,近3000星球成員為創造更好的AI世界共同進步,知識星球入口:

學習3D視覺核心技術,掃描查看介紹,3天內無條件退款


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM