Marr的視覺計算理論


   

    Marr的視覺計算理論立足於計算機科學,系統地概括了心理物理學、神經生理學、臨床神經病理學等方面已取得的所有重要成果,是迄今為止最為系統的視覺理論。Marr 的視覺計算理論雖然在細節甚至在主導思想方面尚存在大量不完備的方面,許多方面還存有許多爭議,但至今為止仍是廣大計算視覺研究人員接受的基本框架。計算機視覺這門學科的形成,應該說與這一理論框架有密切的關系,下面我們從幾個方面來描述這一理論框架。

  Marr 從信息處理系統的角度出發,認為視覺系統的研究應分為三個層次,即計算理論層次、表達(representation)與算法層次、硬件實現層次。

  計算理論層次要回答系統各個部分的計算目的與計算策略,亦即各部分的輸入輸出是什么,之間的關系是什么變換或者具有何種約束。Marr 對視覺系統的總的輸入輸出關系規定了一個總的目標,即輸入二維圖像,輸出是由二維圖像"重建"(reconstruction)出來的三維物體的位置與形狀。Marr 認為,視覺系統的任務是對環境中三維物體進行識別、定位與運動分析,但這僅僅是一種對視覺行為(behavior)目的性定義,而非計算理論層次上的目的性定義。三維物體千差萬別,應存在一種計算層次上的一般性"目的"描述,達到了這一"目的",則不管是什么具體的物體,視覺任務均可完成。Marr 認為,這一"目的",就是通過視覺系統,重建三維物體的形狀和位置。而且若每個時刻都能做到這一點,那么運動分析也可以做到。對視覺系統的各個層次與模塊,Marr 也初步給出了計算理論層次上的目標。

  對於表達與算法層次,視覺系統的研究應給出各部分(模塊)的輸入、輸出和內部的信息表達,以及實現計算理論所規定的目標的算法。算法與表達有關,不同的表達方式,完成同一計算的算法會不同,但 Marr 認為,算法與表達是比計算理論低一層次的問題,不同的表達與算法,在計算理論層次是可以相同的。最后一個硬件層次,是要回答"如何用硬件實現以上的算法"。

  區分上述三個不同層次,對於深刻理解計算機視覺與生物視覺系統,以及它們之間的關系是大有裨益的,例如,人的視覺系統與目前的計算機視覺系統在"硬件實現"層次上是截然不同的,前者是極為復雜的神經網絡,而后者是目前使用的計算機,但它們可能在計算理論層次上具有完全相同的功能。

  目前的計算機視覺的研究工作主要集中在前兩個層次上,即計算理論,表達於算法層次,對於硬件實現,目前只有比較成熟的部分,如低層次處理中的噪聲去除,邊緣抽取;對於簡單二維物體識別及簡單場景下的視覺方法,已有專門芯片或其它並行處理體系結構方面的研究與試驗產品;從系統上構造一般的視覺系統,雖有一些嘗試,但一般並不成功。

  Marr 認為視覺是一個信息處理過程。這個過程根據外部世界的圖像產生對觀察者有用的描述。這些描述依次由許多不同但固定的、每個都記錄了外界的某方面特征的表象(representation)所構成或組合而成。一種新的表象之所以提高了一步是因為新的表象表達了某種信息,而這種信息將便於對信息作進一步解釋。按這種邏輯來思考可得到這樣的結論:即在對數據作進一步解釋以前我們需要關於被觀察物體的某些信息,這就是所謂的本征圖像。

  然而,數據進入我們的眼睛是要以光線為媒介的。灰度圖像中至少包含關於照明情況、觀察者相對於物體位置的信息。因此,按 Marr 的方法首先要解決的問題是如何把這些因素分解開。他認為低層視覺(即視覺處理的第一階段)的目的就是要分清哪些變化是由哪些因素引起的。大體上來說這個過程要經過兩個步驟來完成:第一步是獲得表示圖像中變化和結構的表象。這包括檢測灰度的變化、表示和分析局部的幾何結構、以及檢測照明的效應等處理。第一步得到的結果被稱為初始簡圖(primal sketch)的表象;第二步對初始簡圖進行一系列運算得到能反映可見表面幾何特征的表象,這種表象被稱為二維半(2.5 Dimension,意味着部分的,不完整的三維信息描述)簡圖或本征圖像。"計算"的語言講,就是重建三維物體在觀察者為中心的坐標系下的三維形狀和位置,當人眼或攝像機觀察周圍環境時,觀察者對環境中的三維物體最初是以自身的坐標系來描述的。另外,我們只能觀察到周圍環境物體的一部分(另一部分是物體的背面或被其它的物體所遮擋的部分)。這樣,重建的結果是以觀察者坐標系下描述的部分三維物體形狀,稱為二維半描述。這一階段包括由立體視覺運算提取深度信息,根據灰度影調、紋理等信息恢復表面方向,由運動視覺運算獲取表面形狀和空間關系信息等。

  這些運算的結果都集成到本征圖像這個中間表象層次。因為這個中間表象已經從原始的圖像中去除了許多的多義性,是純粹地表示了物體表面的特征,其中包括光照、反射率、方向、距離等。根據本征圖像表示的這些信息可以可靠地把圖像分成有明確含義的區域(這稱為分割),從而可得到比線條、區域、形狀等更為高層的描述。這個層次的處理稱為中層視覺處理(intermediate processing)。

  二維半描述是不夠的,事實上,從各種不同角度去觀察物體,觀察到的形狀都是不完整的。人腦中不可能存有同一物體的從所有可能的觀察角度看到的物體形象,以用來與所謂的物體的二維半描述進行匹配與比較。因此,二維半描述必須進一步處理以得到物體的完整的三維描述,而且必須是物體本身某一固定坐標系下的描述,這一階段稱為第三階段,即三維階段。Marr 視覺理論中的這一階段的表象層次是三維模型,它適用於物體的識別。這個層次的處理涉及物體,並且要依靠和應用與領域有關的先驗知識來構成對景物的描述,因此被稱為高層視覺處理。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM