CVPR2020無人駕駛論文摘要


 

CVPR2020無人駕駛論文摘要

無人

導讀/ Starsky是一種比較獨特的方案。它是在高速上自動駕駛,第一公里最后一公里采用遠程駕駛的模式,Starsky的卡車可以由人類遠程操作。沒有使用較為昂貴的激光雷達,而是選擇了攝像頭+毫米波雷達的傳感器配置。

 

 

 

 

 

國際計算機視覺與模式識別會議(CVPR)是IEEE一年一度的學術性會議,在世界范圍內具有頂級的權威性與影響力,同時也是圈內學者關注和交流的重要場所。


素有計算機視覺領域“奧斯卡”之稱的CVPR有着相當嚴苛的錄用標准。據統計,會議往年的平均錄取率不超過30%,而根據CVPR2020官方公布論文收錄結果,本屆CPVR共接收6656篇論文,中選1470篇,“中標率”只有22%,堪稱十年來最難入選的一屆。
然而,在論文接收率下降的同時,中國科技企業被錄取論文數量卻不降反增,百度作為AI代表企業今年中選22篇,比去年的17篇增加了5篇。在自動駕駛領域,與安全息息相關的車輛識別全新數據合成方法研究便位列其中。
近年來,CVPR蓬勃發展的重要原因,很大一部分是源自於中國科技公司的貢獻。本次會議中,百度入選的22篇論文,全面涵蓋視覺領域下的自動駕駛中的車輛檢測、人臉檢測&識別、視頻理解&分析、圖像超分辨及場景實例級分割等眾多熱門子領域,也向國際領域展示了中國視覺技術水平的深厚積累。
除了多篇論文被收錄,百度還將在本屆CVPR中聯合悉尼科技大學、南開大學等單位共同主辦弱監督學習研討會(The 2nd Workshop onLearning from Imperfect Data),以及與中科院等單位共同主辦活體檢測研討會(The 4th Workshop on MediaForensics),與更多頂尖學者進行深入交流。
如下為百度入選CVPR 2020的部分論文展示:

1.車輛識別





3D Part Guided Image Editing for Fine-grained Object Understanding

 

 

 

 


在自動駕駛場景中,准確地感知“特殊”狀態的車輛對行駛安全至關重要(例如:車門打開可能有乘客下車,尾燈閃爍意味着即將變道)。針對此難題,本文提出了一個全新的數據合成(增強)方法,即通過對齊的部件級三維模型對二維圖像中的車輛進行編輯,自動生成大量“特殊”狀態(例如:開啟的車門、后備箱、引擎蓋,閃爍的前照燈、尾燈)的車輛圖像與語義標注結果。針對生成的訓練數據,本文設計了一個雙路骨干網絡使得模型可以泛化到真實的測試數據,與傳統的模型渲染方法相比,本方法平衡了域差異的問題並且更加輕量便捷。
為了驗證方法的有效性,本文構建了CUS (Cars in Uncommon States) 數據集,標注了約1400張真實街景下車輛處於特殊狀態的圖像。實驗結果表明:本文提出的方法可以有效地對“特殊”狀態的車輛進行檢測、整車的實例級分割、部件的語義分割以及狀態描述,對自動駕駛的安全決策有着重要的意義。

2.目標檢測&跟蹤





 

Associate-3Ddet:Perceptual-to-Conceptual association for 3D Point Cloud Object Detection

 

 



目標檢測技術是機器人和自動駕駛領域中最重要的模式識別任務之一。本文提出了一種領域自適應的方法來增強稀疏點雲特征的魯棒性。更具體地說,是將來自真實場景的特征(感知域特征)和從包含豐富細節信息的完整虛擬點雲特征(概念域特征)進行了關聯。這種域適應特征關聯的方法實際上是模擬在人腦進行物體感知時的聯想關聯功能。這種三維目標檢測算法在訓練過程中增強了特征提取能力,在推理階段不需要引入任何額外的組件,使得該框架易於集成到各種三維目標檢測算法中。
Neural Message Passingand Attentive Spatiotemporal Transformer for Point Cloud Based 3D Video Object Detection

 

 


基於單幀點雲的3D目標檢測器通常無法應對目標遮擋、遠距離和非均勻采樣等情況,而點雲視頻(由多個點雲幀組成)通常包含豐富的時空信息,可以改善上述情況下的檢測效果,因此本文提出一個端到端的在線3D點雲視頻目標檢測器。論文中的Pillar Message Passing Network(PMPNet),可將點雲俯視圖下的非空柵格編碼為圖節點,並在節點間進行信息傳遞以動態改善節點感受野,PMPNet可以有效結合圖空間的非歐特性和CNN的歐式特性;在時空特征聚合模塊中,還提出空間和時間注意力機制來強化原始的Conv-GRU層,空間注意力機制對new memory進行前景增強和背景抑制,時間注意力機制用以對齊相鄰幀中的動態前景目標。該3D點雲視頻目標檢測器在nuScenes大型基准集上達到了領先效果。
A Unified Object Motionand Association Model for Efficient Online Multi-object Tracking

 

 


利用單目標跟蹤器(SOT)作為運動預測模型執行在線多目標跟蹤(MOT)是當前的流行方法,但是這類方法通常需要額外設計一個復雜的相似度估計模型來解決相似目標干擾和密集遮擋等問題。本文利用多任務學習策略,將運動預測和相似度估計到一個模型中。值得注意的是,該模型還設計了一個三元組網絡,可同時進行SOT訓練、目標ID分類和排序,網絡輸出的具有判別力的特征使得模型可以更准確地定位、識別目標和進行多目標數據關聯;此外,論文中提出了一個任務專屬注意力模塊用於強調特征的不同上下文區域,進一步強化特征以適用於SOT和相似度估計任務。該方法最終得到一個低存儲(30M)和高效率(5FPS)的在線MOT模型,並在MOT2016和MOT2017標准測試集上取得了領先效果。

3.人臉檢測&識別



 

 



 

HAMBox: Delving into Online High-quality Anchors for Detecting Outer Faces


近期,關於人臉檢測器利用錨點構建一個結合分類和坐標框回歸的多任務學習問題,有效的錨點設計和錨點匹配策略使得人臉檢測器能夠在大姿態和尺度變化下精准定位人臉。本次論文中,百度提出了一種在線高質量錨點挖掘策略HAMBox,它可以使得異常人臉(outer faces)被補償高質量的錨點。HAMBox方法可以成為一種基於錨點的單步驟人臉檢測器的通用優化方案。該方案在WIDER FACE、FDDB、AFW和PASCAL Face多個數據集上的實驗表明了其優越性,同時在2019年WIDER Face and Pedestrian Challenge上,以mAP 57.13%獲得冠軍,享譽國際。
FaceScape: a Large-scale High Quality 3D Face Dataset and Detailed Riggable 3D Face Prediction

 

 


該論文發布大尺度高精度人臉三維模型數據庫FaceScape,並首次提出從單幅圖像預測高精度、可操控人臉三維模型的方法。FaceScape數據庫包含約18000個高精度三維面部模型,每個模型包含基底模型和4K分辨率的置換圖及紋理貼圖,能夠表征出面部極細微的三維結構和紋理。與現有公開的三維人臉數據庫相比,FaceScape在模型數量和質量上均處於世界最高水准。
在FaceScape數據庫的基礎之上,本文還探索了一項具有挑戰性的新課題:以單幅人臉圖像為輸入,預測高精度、表情可操控的三維人臉模型。該方法的預測結果能夠通過表情操控生成精細的面部模型序列,所生成的模型在新表情下仍然包含逼真的細節三維結構。據悉,FaceScape數據庫和代碼將於近期免費發布,供非商業用途的學術研究使用。
Hierarchical Pyramid Diverse Attention Network for Face Recognition

 

 


目前主流的人臉識別方法很少考慮不同層的多尺度局部特征。為此,本文提出了一個分層的金字塔多樣化注意力模型。當面部全局外觀發生巨大變化時,局部區域將起重要作用。最近的一些工作應用注意力模塊來自動定位局部區域。如果不考慮多樣性,所學的注意力通常會在一些相似的局部塊周圍產生冗余的響應,而忽略了其他潛在的有判別力的局部塊。此外,由於姿態或表情變化,局部塊可能以不同的尺度出現。為了緩解這些挑戰,百度團隊提出了一種金字塔多樣化注意模塊,以自動和自適應地學習多尺度的多樣化局部表示。更具體地說,開發了金字塔注意力模塊以捕獲多尺度特征;同時為了鼓勵模型專注於不同的局部塊,開發了多元化的學習方法。其次,為了融合來自低層的局部細節或小尺度面部特征圖,可以使用分層雙線性池化來代替串聯或添加。

4.視頻理解&分析





 

ActBERT: Learning Global-Local Video-Text Representations

 

 



受到BERT在自我監督訓練中的啟發,百度團隊對視頻和文字進行類似的聯合建模,並基於敘述性視頻進行視頻和文本對應關系研究。其中對齊的文本是通過現成的自動語音識別功能提供的,這些敘述性視頻是進行視頻文本關系研究的豐富數據來源。ActBERT加強了視頻文字特征,可以發掘到細粒度的物體以及全局動作意圖。百度團隊在許多視頻和語言任務上驗證了ActBERT的泛化能力,比如文本視頻片段檢索、視頻字幕生成、視頻問題解答、動作分段和動作片段定位等,ActBERT明顯優於最新的一些視頻文字處理算法,進一步證明了它在視頻文本特征學習中的優越性。
Memory Aggregation Networks for Efficient Interactive Video Object Segmentation

 

 

 

 

 

 



該論文目的是設計一個快速的交互式視頻分割系統,用戶可以基於視頻某一幀在目標物上給出簡單的線,分割系統會把整個視頻中該目標物分割出來。此前,針對交互式視頻分割的方法通常使用兩個獨立的神經網絡,分別進行交互幀分割、將分割結果傳導至其他幀。本文將交互與傳導融合在一個框架內,並使用像素embedding的方法,視頻中每一幀只需要提取一次像素embedding,更有效率。另外,該方式使用了創新性的記憶存儲機制,將之前交互的內容作用到每一幀並存儲下來,在新的一輪交互中,讀取記憶中對應幀的特征圖,並及時更新記憶。該方式大幅提升分割結果的魯棒性,在DAVIS數據集上取得了領先的成績。
Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

 

 


盡管最近在完全監督的領域上,動作分割技術方面取得了進步,但是其性能仍有不足。一個主要的挑戰是時空變化的問題(例如不同的人可能以各種方式進行相同的動作)。因此,該論文中利用未標記的視頻來解決此問題,方法是將動作分割任務重新設計為跨域(domain)問題,而且該跨域問題主要針對時空變化引起的域差異。為了減少差異,論文提出了“自我監督的時域自適應(SSTDA)”,其中包含兩個自我監督的輔助任務(binary和sequential的域預測),以聯合對齊嵌入不同規模時域動態的跨域特征空間,從而獲得比其他域適應(DA)方法更好的效果。在三個具有挑戰性的公開數據集(GTEA、50Salads和Breakfast)上,SSTDA遠遠領先於當前的最新方法,並且只需要65%的標簽訓練數據即可獲得與當前最新方法可比的性能,這也表明該方法可以有效利用未標簽目標視頻來適應各種變化。

5。圖像超分辨





 

Channel Attention based Iterative Residual Learning for Depth Map Super-Resolution

 

 


隨着深度信息的應用范圍越來越大,深度圖像超分辨問題引起了廣泛研究者的關注。深度圖像超分辨率是指由低分辨率深度圖像為基礎,獲取高質量的高分辨率深度圖像。本文提出的是一種深度圖像超分辨率方法,同時對低分辨率深度圖像的產生方式進行分析,並提出兩種模擬低分辨率深度圖像生成的方式:伴隨噪聲的非線性插值降采樣產生方式及間隔降采樣產生方式。針對不同類型的低分辨率深度圖像,本文使用迭代的殘差學習框架以低分辨率深度圖像為輸入,以coarse-to-fine的方式逐步恢復高分辨率深度圖像的高頻信息;同時,使用通道增強的策略加強包含高頻信息較多的通道在整個學習框架中的作用;另外,還使用多階段融合的策略有效復用在coarse-to-fine過程中獲得的有效信息;最后,通過TGV約束和輸入損失函數進一步優化獲得的高分辨率深度圖像。此次提出的方法可以有效處理深度圖像超分辨率問題,與目前已知的方法相比,效果顯著,優勢明顯。

6.神經網絡架構搜索







GP-NAS: Gaussian Process based Neural Architecture Search

 

 



通過對深度神經網絡進行模型結構自動搜索, NAS(Neural ArchitectureSearch)在各類計算機視覺的任務中都超越了人工設計模型結構的性能。
本論文旨在解決NAS中的三個重要問題:

1.       如何衡量模型結構與其性能之間的相關性?

2.       如何評估不同模型結構之間的相關性?

3.       如何用少量樣本學習這些相關性?


為此,本論文首先從貝葉斯視角來對這些相關性進行建模。
首先,通過引入一種新穎的基於高斯過程的NAS(GP-NAS)方法,並通過定制化的核函數和均值函數對相關性進行建模。並且,均值函數和核函數都是可以在線學習的,以實現針對不同搜索空間中的復雜相關性的自適應建模。此外,通過結合基於互信息的采樣方法,可以通過最少的采樣次數就能估計/學習出GP-NAS的均值函數和核函數。在學習得到均值函數和核函數之后,GP-NAS就可以預測出不同場景,不同平台下任意模型結構的性能,並且從理論上得到這些性能的置信度。在CIFAR10和ImageNet上的大量實驗證明了我們算法的有效性,並且取得了SOTA的實驗結果。
BFBox: Searching Face-appropriate Backbone and Feature Pyramid Network for Robust Face Detector
本文提出的BFBox是基於神經網絡架構搜索的方法,同時搜索適合人臉檢測的特征提取器和特征金字塔。動機是我們發現了一個有趣的現象:針對圖像分類任務設計的流行的特征提取器已經在通用目標檢測任務上驗證了其重要的兼容性,然而在人臉檢測任務上卻沒有取得預期的效果。同時不同的特征提取器與特征金字塔的結合也不是完全正相關的。首先,本文對於比較好的特征提取器進行分析,提出了適合人臉的搜索空間;其次,提出了特征金字塔注意力模塊(FPN-attention Module)去加強特征提取器和特征金字塔之間的聯系;最后, 采取SNAS的方法同時搜出適合人臉的特征提取器和特征金字塔結構。多個數據集上的實驗表明了BFBox方法的優越性。

7.結構設計





 

Gated Channel Transformation for Visual Recognition

 

 


本文針對深度卷積神經網絡提出了一種常規的、易應用的變換單元,即Gated Channel Transformation (GCT) 模塊。GCT結合了歸一化方法和注意力機制,並使用輕量級的、易於分析的變量來隱式地學習網絡通道間的相互關系。這些通道量級的變量可以直接影響神經元間的競爭或者合作行為,且能方便地與卷積網絡本身的權重參數一同參與訓練。通過引入歸一化方法,GCT模塊要遠比SE-Nets的SE模塊輕量,這使得將GCT部署在每個卷積層上而不讓網絡變得過於臃腫成為了可能。本文在多個大型數據集上針對數種基礎視覺任務進行了充分的實驗,即ImageNet數據集上的圖片分類,COCO上的目標檢測與實例分割,還有Kinetics上的視頻分類。在這些視覺任務上,引入GCT模塊均能帶來明顯的性能提升。這些大量的實驗充分證明了GCT模塊的有效性。

8.表征學習





 

Label-Isolated Memory for Long-Tailed Visual Recognition

實際場景中的數據通常遵循“長尾”分布。大量類別都是數據較少,而有少數類別數據充足。為了解決類不平衡問題,本文引入了類別隔離記憶結構(LIM)用於長尾視覺識別。首先,LIM增強了卷積神經網絡快速學習尾部類別特征的能力。通過存儲每個類的最顯著的類別特征,獨立更新存儲單元,LIM進一步降低了分類器學偏的可能。其次,本文為多尺度空間特征編碼引入了一種新穎的區域自注意力機制。為了提高尾類識別通用性,合並更多區別性強的特征是有好處的。本文提出以多個尺度對局部特征圖進行編碼,同時背景信息也被融合進來。配備LIM和區域自注意力機制,該方法在5個數據集上都取得了最好的性能。
CVPR是計算機視覺領域的國際頂級會議,百度能夠在CVPR中保持多年的優勢,除了在國際領域中屢獲佳績的視覺技術,其語音、人臉、NLP、OCR等技術也有不俗的成績,調用量均為中國第一。
未來,Apollo自動駕駛技術還將不斷打磨、創新,協同百度AI生態體系,致力於頂尖的學術研究、前瞻的技術布局、深入行業的落地應用,為全球自動駕駛領域貢獻更多突破性的科技力量。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM