雙目視覺的距離探測公式


  雙目攝像頭可以完成所有單目攝像頭能完成的功能,同時能夠獲得后者永遠無法企及的深度信息。
  無論何種狀態的駕駛系統,無人的還是有人的,對障礙物的信息最重要的是障礙物與自車之間的距離,其次才是識別障礙物的類型。
  准確判斷障礙物與自車間的距離是保證車輛安全的首要信息,只有獲得准確的距離信息,才能准確得出有可能發生碰撞的時間,也就是TTC。單純識別障礙物毫無意義,識別出前方是個小孩,但無法得出准確距離信息,就無法得出准確的TTC,就無法保證小孩的安全。等識別出來,人可能已經被撞死,屆時深度學習圖像識別毫無意義。
  當然,激光雷達在距離測量上也很精確,同時FOV也很大,覆蓋面更廣,但是成本高,功能單一,無法識別顏色(剎車燈)。而雙目不僅能精確地測量距離,同時還可以識別剎車燈,車道線,路旁的交通標志等。豪華車也不是不計成本的,所以雙目攝像頭成了豪華車的首選。
  對單目來說,要想獲得距離信息,必須先識別目標。
  要提供目標距離信息,首先要對目標進行框圖邊界分割,而分割和識別是一體的,不識別無法准確分割。
圖像識別簡單分為兩大類:一類是基於詞包模型的圖像識別,一類是基於深度學習的圖像識別。
  歐洲NAVER實驗室高級科學家Gabriela Csurka等人首次將“自然語言處理”領域的 BoVM(bag-of-words)模型引入到圖像分類領域。就是將圖像類比為文檔,將圖像信息用若干單詞表示,最終用單詞的頻率直方圖表示圖像。
  首先,將一幅圖像待檢測的特征點或者特征區域用特征描述算子對其進行描述。將提取的特征算子采用機器學習的方法進行訓練獲得用特征頻率表示的視覺單詞組成的視覺詞典。
  最后,通過對不同類別的視覺直方圖進行學習,便可以獲得學習模型。在測試環節,提取待測試圖像的特征,獲得待測試圖像的視覺單詞直方圖,與上述獲得的學習模型與待測試圖像的頻率直方圖進行匹配,獲得分類識別結果。
由此可見,將 Bag-of-Word 應用到圖像分類模型上通常需要三個步驟:特征檢測與描述、視覺詞典的構建、分類器。

視覺詞包模型(bag-of-words)相對比其他模型最大的優勢在於適用於大部分的應用場合,可以簡單直觀地把圖像表示成直方圖呈現出來,這樣就可以使圖像分類識別問題轉化成普通模式識別問題,所需運算資源少。
但是,視覺詞包模型也有一些缺點:
• 使用特征用視覺單詞直方圖表示,在這個轉化的過程中,丟了特征的位置信息,在一些需要位置信息的研究中,如前方突然掉落的物體,突然出現的行人,這個方法明顯是不適合的;
• 在視覺詞包模型建立的在單詞與單詞之間相互獨立的基礎上,但是有些情況,單詞與單詞之間是互相有聯系的,如連續的視頻,因此,視覺詞包模型在這種情況下使用,是造成識別結果較差。
  詞包模型實際上相當於只包含了一個卷積層和一個匯聚層,且模型采用無監督方式進行特征表達學習,而卷積神經網絡則包含了更多層的簡單、復雜細胞,可以進行更為復雜的特征變換,並且其學習過程是有監督過程的,濾波器權重可以根據數據與任務不斷進行調整,從而學習到更有意義的特征表達。
  從這個角度來看,卷積神經網絡具有更為強大的特征表達能力,因此它在圖像識別任務中的出色性能就很容易解釋了。
分割並識別后是估算距離,單目估算距離主要是根據像素大小,這種方法准確度不高。
  由於距離因素,行人3和行人2的像素大小是非常接近的,但行人2和行人3與車輛距離距離差別很大,但是在單目看來,距離是完全一樣的。
雙目與單目區別有幾點,首先雙目是測量距離而非估算。
雙目測距原理


上圖為雙目的距離計算公式,准確度比單目要高得多。雙目與單目區別的第二點是雙目可以在不識別目標的情況獲得深度(距離)數據。

 

雙目典型工作流程圖

上圖為雙目的典型工作流程圖。雙目最后輸出的是一張深度圖。

用顏色深淺來代表距離。雙目雖然不需要識別目標,但是雙目需要級化分割(Segmentation),常使用的算法有Belief Propagation和Mean Shift。雙目最關鍵的環節在立體匹配。

雙目需要對每一個像素點都做立體匹配,運算量很大,但算法簡單,比較適合用FPGA來完成,而FPGA不是特斯拉這種小廠能玩得轉的。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM