鄭重聲明:原文參見標題,如有侵權,請聯系作者,將會撤銷發布!

Presented at the ICML 2017 Workshop on Machine Learning for Autonomous Vehicles
Abstract
動態視覺傳感器(DVS)和動態有源像素視覺傳感器(DAVIS)等事件相機可以通過提供標准有源像素傳感器(APS)圖像和DVS時間對比事件的並發流來補充其他自動駕駛傳感器。APS流是一系列標准灰度全局快門圖像傳感器幀。DVS事件表示在特定時刻發生的亮度變化,在大多數照明條件下抖動約為一毫秒。它們具有>120 dB的動態范圍和>1 kHz的有效幀速率,數據速率與30 fps(幀/秒)圖像傳感器相當。為了克服當前圖像采集技術的一些限制,我們在這項工作中研究了在端到端驅動應用中使用組合的DVS和APS流。本文隨附的數據集DDD17是帶注釋的DAVIS駕駛記錄的第一個開放數據集。DDD17具有超過12小時的346x260像素DAVIS傳感器,可記錄白天、晚上、夜間、干燥和潮濕天氣條件下的高速公路和城市駕駛,以及從汽車的車載診斷界面捕獲的車速、GPS位置、駕駛員轉向、油門和剎車。作為示例應用,我們使用卷積神經網絡進行了初步的端到端學習研究,該網絡經過訓練可根據DVS和APS視覺數據預測瞬時轉向角。
1 Introduction
機器學習和計算機視覺系統的快速改進推動了自動駕駛汽車的發展,在現實世界的場景中,自動駕駛汽車已經覆蓋了數百萬公里。處理技術和算法的發展目前似乎比傳感硬件的發展速度更快,以從車輛周圍環境(如障礙物、交通、標記和標志)中獲取必要信息。正在集中開發汽車圖像傳感器,以應對對低成本、高動態范圍、高靈敏度和抗閃爍光源(如LED交通標志和汽車尾燈)的偽影的相互矛盾的要求。在惡劣天氣和/或光照條件下運行是汽車自動駕駛或自動駕駛輔助系統(ADAS)的主要要求,但是,與人類駕駛員在具有挑戰性的情況下的表現相比,當前的ADAS傳感器和系統仍然面臨許多問題。由於事件攝像機已被提議作為可能的ADAS傳感器(Posch et al., 2014),我們收集數據來研究使用事件攝像機來增強傳統成像技術。
事件相機動態視覺傳感器(DVS)不是提供基於幀的視頻作為輸出,而是檢測單個像素亮度的局部變化,並在發生時異步輸出這些變化(Lichtsteiner et al., 2008; Posch et al., 2014)。因此,與基於幀的系統相比,只有場景中發生變化的部分會產生數據,從而降低輸出數據速率、提高時間分辨率並減少延遲,因為像素亮度的變化在發生時會從相機中流出。局部瞬時增益控制增加了不受控制的照明條件下的可用性。更高的時間分辨率和有限的數據速率使DVS非常適合自動駕駛應用,其中延遲和功耗都很重要。動態有源像素視覺傳感器(DAVIS)具有同時輸出DVS事件和標准圖像傳感器強度幀的像素(Brandli et al., 2014)。
最近的研究表明,在數據驅動的卷積神經網絡(CNN)實時應用中使用DVS是有用的(Moeys et al., 2016; Lungu et al., 2017)。在這些應用中,DVS輸入幀通常由恆定數量的幾千個DVS事件組成的2D直方圖圖像組成。因為DVS事件率與亮度變化率成正比,即場景反射率(Lichtsteiner et al., 2008),所以CNN幀速率是可變的,范圍從大約1 fps到1000 fps。Moeys et al. (2016)表明,將來自傳感器的標准圖像傳感器幀與DVS幀相結合,可以提高准確度並縮短平均反應時間。在此,我們在第一個發布的DVS或DAVIS駕駛數據的端到端數據集中將這項工作擴展到現實世界的駕駛。
2 Davis Driving Dataset 2017 (DDD17)
DDD17可從sensors.ini.uzh.ch/databases獲得。這些數據是從瑞士和德國在各種條件下的公路駕駛中收集的。它包括DAVIS數據和汽車數據。由於該數據集的主要目的是研究用於ADAS的APS和DVS數據的融合,因此我們沒有包括其他傳感器,例如LIDAR。
2.1 DAVIS data
視覺數據是使用包含DAVIS APS+DVS相機的DAVIS346B原型相機捕獲的,這樣可以通過相同的光學器件同時記錄基於事件的和傳統的基於幀的數據。相機分辨率為346 × 260像素。相機架構類似於Brandli et al. (2014),但傳感器的像素增加了2.1倍,並包括片上列並行模數轉換器(ADC),可實現高達50 fps的基於幀的APS輸出。DAVIS346B還優化了帶有微透鏡的埋入式光電二極管,可增加填充因子並減少暗電流,從而與Brandli et al. (2014)的DAVIS240C相比,將低光強度下的操作提高了約4倍。所有記錄均使用固定焦距鏡頭(C-mount, 6mm),提供56度的水平視野。光圈是手動設置的,具體取決於照明條件。APS幀速率取決於曝光持續時間,介於10 fps和50 fps之間;在某些錄音中,它會根據自動曝光持續時間算法而有所不同。這些幀是使用DAVIS全局快門模式捕獲的,以最大限度地減少運動偽影。相機安裝在擋風玻璃后面的玻璃三腳架支架上,就在后視鏡下方,並對准引擎蓋的中心。汽車引擎蓋上的標記最初用於在第一次錄制期間對准攝像機,並且攝像機從未從該位置移動過。這些標記在整個記錄期間都留在引擎蓋上以進行控制。在一些錄音中使用了偏振濾光片來減少擋風玻璃和引擎蓋的眩光。相機由高速USB 2.0供電並連接到筆記本電腦。使用inilabs cAER軟件1讀取原始數據並流式傳輸到第2.3節中描述的自定義記錄框架作進一步處理。
1 cAER支持
2.2 Vehicle control and diagnostic data
使用Ford Mondeo MK 3 European Model獲取數據。我們使用插入乘客艙OBDII端口的OpenXC Ford Reference車輛接口,從汽車的CAN總線讀取控制和診斷數據。車輛接口連接到主機USB端口2。
車輛接口使用Ford Mondeo MK 3車型("類型3"固件)的供應商提供的固件進行編程,並使用OpenXC python庫讀取。原始數據被傳遞到第2.3節中描述的自定義記錄軟件。以下每個量以約10 Hz的速率讀出。端到端學習實驗的可能目標以粗體顯示。
- 方向盤轉角(度,最高720度),
- 加速踏板位置(%踩下),
- 制動踏板狀態(踩下/未踩下),
- 發動機轉速(rpm),
- 車速(km/h),
- 緯度,
- 經度,
- 前照燈狀態(開/關),
- 遠光燈狀態(開/關),
- 擋風玻璃雨刷狀態(開/關),
- 里程表(km),
- 變速箱扭矩,
- 變速箱檔位(檔位號),
- 自重啟以來消耗的燃料,
- 燃油油位(%),
- 點火狀態,
- 駐車制動狀態(開/關)。
2.3 Recording and viewing software
創建了一個用於記錄、查看和導出數據的Python軟件框架3,其主要目的是組合和同步來自不同輸入設備的數據並將其存儲為標准化文件格式。特別是,由於APS幀和DVS數據在相機上使用其自己的本地時鍾進行了微秒時間戳,而車輛接口提供的數據不是,因此兩個數據流都增加了記錄計算機的毫秒系統時間,然后可以用於同步。由於車輛接口以每個記錄變量僅約10 Hz的速率流式傳輸數據,因此這種設備外時間戳是合理的。在錄制之前,計算機時間已與標准時間服務器同步。數據以HDF5格式存儲,其中存在適用於各種環境的廣泛使用的庫。每種數據類型(例如 DVS 事件、方向盤角度、車速……)都存儲在一個單獨的容器中,每個容器包含一個用於系統時間戳的容器和一個用於數據的容器。這樣,系統時間戳可以用於快速索引和讀取時同步數據。由於記錄設備以不規則的時間間隔提供數據,每種數據類型都以事件驅動的方式存儲,因此不同的容器包含不同數量的樣本。DAVIS數據以其原生cAER AER-DAT3.1格式4存儲在每個HDF5容器中。
除了記錄框架之外,基於python的查看器view.py將記錄的DAVIS數據與選定的車輛數據(如轉向角或速度)一起可視化(圖1)。腳本export.py將數據導出到幀中,以准備數據以供機器學習算法進一步處理。


3 Recorded data
總共連續六天在各種天氣、駕駛、道路和照明條件下記錄了超過12小時的數據,覆蓋了瑞士和德國超過1000公里的不同類型道路。記錄是手動開始和停止的,通常持續一分鍾到一小時。結果記錄總結在表1中。圖2顯示了幾個記錄變量在整個數據集中的分布。轉向角以直線行駛和10°的小偏差為主。速度在0-160 km/h范圍內均勻分布。自動控制的前照燈大約有一半時間亮着,這表明大部分數據是在弱光條件下捕獲的。

4 Experiments: Steering prediction network
控制模型的端到端學習對於自動駕駛應用來說是一種有吸引力的方法,因為它消除了對數據或特征進行繁瑣的手工標記的需要——面對當今車輛獲取的大量數據,這項任務令人望而卻步(Bojarski et al., 2016)。所呈現的數據集有明顯的局限性,因為它不包括其他傳感器,如激光雷達,不包括可以更好地預測用戶意圖的路線信息,並且數據往往是不平衡的。然而,在某些條件下,例如高速公路駕駛、沿道路行駛而不轉向其他道路或不可預測的用戶行為,它可以用於研究數據在預測測量的用戶行為方面的效用。
我們訓練了簡單的轉向預測網絡。這些網絡獲取輸入的APS和/或DVS數據並嘗試預測瞬時方向盤角度。他們的靈感來自LeCun的早期工作(LeCun et al., 2005)、comma.ai的開創性開放數據集(Santana & Hotz, 2016),以及最近的Nvidia (Bojarski et al., 2016)和未發表的VW研究。
我們的結果比較了在純APS數據上運行的網絡與在純DVS數據上運行的網絡的轉向預測精度。我們的示例實現應被視為驗證數據和相關軟件可用性的初步研究。特別是,這里介紹的實驗基於整個數據集的一小部分(表1中的記錄1487858093和1487433587)。使用更多數據訓練更多架構的工作正在進行中。
圖3顯示了我們的第一個結果,它是從具有4個卷積層的CNN獲得的,每個卷積層有8個特征圖並使用3×3核,並在單個1.5小時的記錄上進行訓練。每層后面都有一個2x2最大池化層。最終的特征圖層被映射到一個64單元的全連接(FC)層。FC層映射到范圍±180度中的輸出轉向角。DVS和APS輸入被二次采樣為80×60圖像。輸入幀歸一化按照Moeys et al. (2016)的方法進行。
我們的定量准確性結果無法報告,但我們已經驗證了數據集和工具的可用性。進一步的分析是必要的,並且是正在進行的工作的主題。

5 Conclusion
本文的主要成果是介紹了DDD17,第一個開放的DAVIS駕駛數據數據集,帶有端到端的標簽,以及必要的軟件工具。CNN對端到端轉向角預測的初步研究顯示了數據的可用性。
