自動駕駛感知系統盤點
Perception(感知)系統是以多種傳感器的數據與高精度地圖的信息作為輸入,經過一系列的計算及處理,對自動駕駛車的周圍環境精確感知的系統。
它能夠為下游模塊提供豐富的信息,包括障礙物的位置、形狀、類別及速度信息,也包括對一些特殊場景的語義理解(例如施工區域,交通信號燈及交通路牌等)。
感知系統的構成與子系統
◆ 傳感器:涉及到傳感器的安裝,視場角,探測距離,數據吞吐,標定精度,時間同步等。因為自動駕駛使用的傳感器比較多,時間同步的解決方案至關重要。
◆ 目標檢測及分類:為了保證自動駕駛的安全,感知系統需要達到近似百分之百的召回率及非常高的准確率。目標檢測及分類往往會涉及到深度學習方面的工作,包括3D點雲及2D Image(圖片)上的物體檢測及多傳感器深度融合等。
◆ 多目標追蹤:跟進多幀的信息計算並預測障礙物的運動軌跡。
◆ 場景理解:包括交通信號燈,路牌,施工區域,以及特殊類別,比如校車,警車。
◆ 機器學習分布式訓練基礎架構及相關評價系統
◆ 數據:大量的標注數據,這里包括3D點雲數據及2D的圖片數據等。
傳感器詳解目前自動駕駛應用的傳感器主要分為三類:激光雷達(LiDAR),相機(Camera),毫米波雷達(Radar)。

開頭提到,感知系統的輸入為多種傳感器數據和高精地圖,而上圖展示了感知系統物體檢測的輸出結果,即能夠檢測車輛周圍的障礙物,如車輛、行人、自行車等,同時結合高精度地圖,感知系統也會對周邊的Background(環境背景)信息進行輸出。
如上圖所示,綠顏色的塊狀代表一輛乘用車,橙色代表一輛摩托車,黃色代表一位行人,灰色則是檢測到的環境信息,如植被。

感知系統結合多幀的信息(上圖),還能對運動的行人和車輛的速度、方向、軌跡預測等進行精確的輸出。
2傳感器配置與多傳感器深度融合
了解了關於感知系統從輸入到輸出的大致介紹,接下來,我簡要介紹一下小馬智行第三代自動駕駛系統PonyAlpha的傳感器安裝方案以及多傳感器深度融合的解決方案。
傳感器安裝方案目前PonyAlpha傳感器安裝方案的感知距離能夠覆蓋車周360度、范圍200米以內。

具體來看,這套方案用到了3個激光雷達,在車的頂部和兩側。同時,通過多個廣角的攝像頭來覆蓋360度的視野。遠處的視野方面,前向的毫米波雷達以及長焦相機將感知距離擴到200米的范圍,使其可以探測到更遠處的物體信息。這套傳感器配置能保證我們的自動駕駛車輛在居民區、商業區、工業區這樣的場景進行自動駕駛。
多傳感器深度融合解決方案多傳感器深度融合的基礎多傳感器深度融合的方案首要解決的是將不同的傳感器的數據標定到同一個坐標系里,包括了相機的內參標定,激光雷達到相機的外參標定,毫米波雷達到GPS的外參標定等等。傳感器融合重要前提是使標定精度達到到極高水平,不論對於結果層面的傳感器融合還是元數據層面的傳感器融合,這都是必要的基礎。

通過上圖你會發現,我們的感知系統將3D的激光點雲精准地投射到影像上,可見傳感器標定的精度是足夠高的。不同傳感器的標定方案整個傳感器標定的工作基本上已做到完全自動化的方式。

首先是相機內參的標定(上圖),這是為了修正由相機自身特性導致的圖像扭曲等。相機內參的標定平台使每一個相機能夠在兩到三分鍾之內完成傳感器的標定。

其次是激光雷達與GPS/IMU的外參標定(上圖),激光雷達的原始數據是基於雷達坐標系,因此我們需要將點由雷達坐標系轉換為世界坐標系,這就涉及到激光雷達與GPS/IMU相對位置關系的計算。我們的標定工具在室外通過優化的方案,能夠快速找到最優的位置關系。

第三是相機到激光雷達的融合(上圖)。激光雷達的感知環境是360度旋轉的方式,每旋轉一周是100毫秒,而相機是某一瞬時曝光,為了保證相機的曝光與激光雷達的旋轉保證同步,需要對二者進行時間同步,即通過Lidar來觸發相機曝光。比如說,可以通過激光雷達的位置信息來觸發對應位置相機的曝光時間,以達到相機與激光雷達的精確同步。3D(激光雷達)和2D(相機)彼此互補,二者更好的融合可使得感知得到更精確的輸出。

最后是毫米波雷達(Radar)與GPS/IMU的標定(上圖),同樣是將Radar數據由Local(本地)坐標系將其轉換到世界坐標系,我們將通過真實的3D環境來計算Radar與GPS/IMU的相對位置關系。好的標定結果能夠保證感知系統給出200米距離以內障礙車的車道信息(如位於車道內或壓車道線等)等。下面這個demo視頻簡明生動地展示了多傳感器深度融合的部分處理效果。
3車載感知系統架構那么車載感知系統架構是什么樣的?它的解決方案又是什么?

上圖展示了整個車載感知系統的架構。首先激光雷達、相機、毫米波雷達三種傳感器數據須進行時間同步,將所有的時間誤差控制在毫秒級。結合傳感器數據,感知系統以幀為基礎(frame-based)進行檢測(detection)、分割(segmentation)、分類(classification)等計算,最后利用多幀信息進行多目標跟蹤,將相關結果輸出。這個過程中將涉及到多傳感器深度融合和深度學習相關的技術細節,我這里不做過多的討論。感知系統的解決方案應保證以下五點:
◆ 首先是安全,保證近乎百分之百的檢測(Detection)召回率(Recall)。
◆ 精度(Precision)要求非常高,如果低於某個閾值,造成False Positive(誤報),會導致車輛在自動駕駛狀態下行駛得非常不舒適。
◆ 盡量輸出所有對行車有幫助的信息,包括路牌,交通信號燈及其它場景理解的信息。
◆ 保證感知系統的高效運行,能夠近實時處理大量的傳感器數據。
◆ 可擴展性(Scalability)也很重要。深度學習(Deep learning)依賴大量數據,其訓練模型的泛化能力對於感知系統非常重要。未來,我們希望模型(model)和新算法有能力適配更多的城市和國家的路況。
4感知技術的挑戰
感知精度與召回率相平衡的挑戰

上圖展示了晚高峰時期十字路口的繁忙場景,此時有大量行人、摩托車穿過十字路口。

通過3D點雲數據(上圖),能夠看到此時對應的感知原始數據。這里挑戰是,經過計算處理后,感知系統需要在這樣環境下輸出所有障礙物的正確的分割(segmentation)結果和障礙物類別。除了繁忙的十字路口,感知系統在處理一些特殊的或者惡劣的天氣條件,也面臨不小挑戰。
突降暴雨或者長時間降雨往往會造成路面積水,車輛經過自然會濺起水花。如果感知系統不能對水花進行准確的識別和過濾,這會對自動駕駛造成麻煩。結合激光雷達與攝像頭(Lidar&Camera)的數據,我們的感知系統對水花有很高的識別率。長尾場景挑戰灑水車上圖是我們在路測時曾遇到的兩類灑水車(上圖)。左邊灑水車采用向上噴的霧炮,而右邊是向兩側噴灑的灑水車。

人類司機遇到灑水車時,可以很容易做出判斷並超過灑水車,但是對於感知系統來說,則需要花一定時間去處理和識別這類場景和車輛,我們的自動駕駛在遇到類似場景已獲得更優的乘坐體驗。小物體的檢測

小物體檢測的意義在於,面對意想不到的路測事件,比如流浪的小貓、小狗突然出現馬路上,感知系統對這類小物體能夠有准確的召回,以保證小生命的安全。
紅綠燈

隨着越來越多地區和國家開展自動駕駛路測,感知系統在處理交通信號燈總會遇到新的長尾場景。

例如,逆光的問題(上圖)或者突然從橋洞中駛出后相機曝光的問題,我們可以通過動態調整相機的曝光等方法來解決問題。
還有紅綠燈倒計時的場景(上圖),感知系統可以識別出倒計時的數字,這樣能夠讓自動駕駛車輛在遇到黃燈時/前,給出更優的規划決策應對,優化乘車體驗。

雨天時,攝像頭(照相機)會水珠密布(上圖),感知系統需要處理這類特殊氣候條件下的場景,准確識別紅綠燈。

![]()
