視覺感知是使用由環境中的物體反射的可見光譜中的光來解釋周圍環境的能力。這與視敏度不同,視敏度是指人們看得多清楚(例如“20/20視力”)。即使他/她有20/20視力,一個人在視覺感知處理方面也會遇到問題。
由此產生的感知也稱為視覺感知,視力,視力或視覺(形容詞形式:視覺,光學或眼睛)。視覺中涉及的各種生理成分統稱為視覺系統,是語言學, 心理學,認知科學,神經科學和分子生物學等多項研究的焦點,統稱為視覺科學。
內容
視覺系統[ 編輯]
在人類和許多其他哺乳動物中,光通過角膜進入眼睛,然后鏡片將光聚焦到眼睛后部的光敏膜上,稱為視網膜。視網膜用作將光轉換成神經信號的換能器。這種轉導是通過視網膜的專門光感受細胞實現的,視網膜也被稱為視桿細胞和視錐細胞,它們通過產生神經沖動來檢測光子並做出反應。這些信號由由所發送的視神經,從視網膜上游到中央神經節在大腦。的外側膝狀體,其將信息發送到 視覺皮層。來自視網膜的信號也直接從視網膜傳播到上丘。
外側膝狀體核向初級視覺皮層發送信號,程序代寫https://item.taobao.com/item.htm?spm=a230r.1.14.59.255028c3ALNkZ0&id=586797758241&ns=1&abbucket=15#detail也稱為紋狀皮層。 extrastriate皮質,也稱為 視覺協會皮層是一組皮質結構,從紋狀皮質,以及彼此接收信息。[1] 最近對視覺關聯皮質的描述描述了分為兩個功能途徑,腹側和背側通路。這個猜想被稱為兩個流假設。
通常認為人類視覺系統對電磁波譜的 370和730納米(0.00000037至0.00000073米)波長范圍內的可見光敏感 。[2]然而,一些研究表明,人類可以感知波長低至340納米(UV-A)的光,特別是年輕人。[3]
研究[ 編輯]
視覺感知的主要問題是人們看到的不僅僅是視網膜刺激的翻譯(即視網膜上的圖像)。因此,對感知感興趣的人長期以來一直在努力解釋視覺處理的作用,以創造實際看到的內容。
早期研究[ 編輯]
有兩個主要的古希臘學校,提供了視覺如何運作的原始解釋。
第一個是“ 發射理論 ”,它保持視覺發生在光線從眼睛發出並被視覺物體截獲時。如果直接看到一個物體,則是通過“光線”從眼睛中射出並再次落在物體上。然而,折射圖像也可以通過“光線方式”看到,它從眼睛中出來,穿過空氣,折射后落在可見物體上,這些物體是由於光線的運動而被看見的從眼睛。這個理論得到了歐幾里德和托勒密及其追隨者等學者的支持。
第二所學校倡導所謂的“介紹 - 使命”方法,將視覺視為來自進入眼睛的物體代表物體。憑借其主要傳播者亞里士多德,蓋倫及其追隨者,這一理論似乎與視覺真實存在的現代理論有一些聯系,但它仍然只是缺乏任何實驗基礎的推測。(在十八世紀的英格蘭,艾薩克·牛頓,約翰·洛克和其他人通過堅持視覺涉及一個過程,其中由實際的物質物質組成的光線 - 從被看見的物體發出並進入先見者的思想/進程,進一步推動了插入/插入主義理論。通過眼睛的光圈傳感器。)[4]
兩種思想流派都依賴於“喜歡只喜歡”的原則,因此認為眼睛是由一些“內部火焰”構成的,這種火與可見光的“外部火焰”相互作用並使視覺成為可能。柏拉圖使得這種說法在他的對話蒂邁歐篇一樣,亞里士多德在他的德扇子。[5]
海什木(965 - 。Ç 1040)進行了大量的研究和實驗,在視覺感知,擴展托勒密的工作雙眼視覺,並評論蓋倫的解剖學著作。[6] [7]他是第一個解釋視覺發生的人,當光在物體上反彈然后被引導到一個人的眼睛。[8]
Leonardo da Vinci(1452-1519)被認為是第一個認識到眼睛特殊光學特性的人。他寫道:“人眼的功能......被大量作者以某種方式描述。但我發現它完全不同。” 他的主要實驗結果是,在視線上只有一個清晰明確的視野 - 在中央凹處結束的光學線。雖然他從字面上不使用這些詞,但他實際上是中央凹和周邊視覺之間現代區別的父親。[ 引證需要 ]
伊薩克牛頓(1642-1726 / 27)是第一個通過實驗發現,通過隔離穿過棱鏡的光譜的各種顏色,發現物體的視覺感知顏色是由於物體反射的光的特征而出現的,這些分開的顏色不能改變成任何其他顏色,這與當時的科學期望相反。[2]
無意識推理[ 編輯]
Hermann von Helmholtz經常被認為是現代視覺感知的第一項研究。亥姆霍茲檢查了人眼並得出結論,它在光學上相當差。通過眼睛收集的低質量信息似乎使他無法實現願景。因此,他的結論是,願景只能是某種形式的無意識推理的結果:根據以往的經驗,從不完整的數據中做出假設和結論。[9]
推理需要先前的世界經驗。
基於視覺體驗的眾所周知的假設示例如下:
- 光來自上方
- 通常不會從下方查看對象
- 面孔被看見(並被認出)直立。[10]
- 較近的物體可以阻擋更遠的物體的視野,但反之則不然
- 數字(即前景物體)傾向於具有凸邊界
對視覺錯覺的研究(推理過程出錯的情況)已經深入了解了視覺系統所做出的假設。
另一種類型的無意識推理假設(基於概率)最近在所謂的貝葉斯視覺感知研究中得到了恢復。[11]這種方法的支持者認為視覺系統執行某種形式的貝葉斯推理以從感覺數據中獲得感知。然而,目前尚不清楚這種觀點的支持者原則上如何得出貝葉斯方程所需的相關概率。基於這一想法模型已被用於描述不同的視覺感知的功能,如在運動的感知,對深度的感知,以及數字地面感知。[12] [13] “完全經驗的感知理論 “是一種相關的和更新的方法,它合理化視覺感知而不明確地調用貝葉斯形式。
格式塔理論[ 編輯]
格式塔心理學家主要在20世紀30年代和40年代工作,提出了今天視覺科學家研究的許多研究問題。[14]
組織格式塔規則指導了人們如何將視覺組件視為有組織的模式或整體,而不是許多不同的部分。“格式塔”是德語單詞,部分翻譯為“配置或模式”以及“整體或緊急結構”。根據這一理論,有八個主要因素決定視覺系統如何自動將元素分組為模式:鄰近,相似性,閉合,對稱性,共同命運(即共同運動),連續性以及良好格式塔(有規律的模式,簡單,有序)和過去的經驗。
眼球運動分析[ 編輯]
在20世紀60年代,技術發展允許在閱讀期間連續登記眼球運動,[15]在圖片觀看,[16]以及后來的視覺問題解決[17]以及耳機 - 攝像機可用時,也在駕駛期間。[18]
右圖顯示了目視檢查的前兩秒內可能發生的情況。當背景失焦,代表周邊視覺時,第一個眼球運動會轉到男人的靴子上(因為它們非常靠近起始固定並具有合理的對比度)。
以下注視事項從面對面跳躍。他們甚至可以允許面部之間的比較。
可以得出結論,圖標面是外圍視野內非常有吸引力的搜索圖標。該中心凹視力添加詳細信息到周邊的第一印象。
還可以注意到,存在不同類型的眼球運動:固定眼球運動(微觀狀態,眼睛漂移和震顫),聚散運動,掃視運動和追蹤運動。固定是眼睛休息的相對靜態點。然而,眼睛永遠不會完全靜止,但凝視位置會漂移。這些漂移反過來通過微型眼鏡,非常小的固定眼球運動來糾正。聚散運動涉及雙眼的合作以允許圖像落在兩個視網膜的相同區域上。這導致單個聚焦圖像。Saccadic運動是從一個位置跳到另一個位置的眼動的類型,用於快速掃描特定的場景/圖像。最后,追求運動是平滑的眼球運動,用於跟蹤運動中的物體。[19]
面部和物體識別[ 編輯]
有大量證據表明面部和物體識別是由不同的系統完成的。例如,prosopagnosic患者表現出面部缺陷,但不顯示對象處理,而對象無遺傳患者(最明顯的是患者CK)在對象處理中表現出缺乏面部處理的缺陷。[20]從行為上看,已經表明,面部而非物體會受到反轉效應,從而導致面部“特殊”的主張。[20] [21]此外,面部和對象處理招募不同的神經系統。[22]值得注意的是,一些人認為,人類大腦對面部處理的明顯專業化並不能反映真正的領域特異性,而是在一類特定刺激中更為一般的專家級歧視過程,[23]盡管后一種說法是實質性辯論的主題。使用fMRI和電生理學Doris Tsao及其同事描述了獼猴的大腦區域和面部識別機制。[24]
認知和計算方法[ 編輯]
在20世紀70年代,David Marr開發了一個多層次的視覺理論,分析了不同抽象層次的視覺過程。為了專注於理解視覺中的特定問題,他確定了三個層次的分析:計算,算法和實施水平。包括Tomaso Poggio在內的許多視覺科學家已經接受了這些級別的分析,並利用它們從計算的角度進一步表征視覺。[25]
該計算級別的地址,在一個高度抽象的,問題是,視覺系統必須克服。該算法級試圖確定可用於解決這些問題的策略。最后,實現級別試圖解釋如何在神經回路中實現這些問題的解決方案。
Marr建議可以獨立地調查任何這些級別的視力。Marr將視覺描述為從二維視覺陣列(在視網膜上)到作為輸出的世界的三維描述。他的願景包括:
- 一個2D或最初草圖的場景,根據場景的基本組成部分,包括邊緣,區域等注意在概念上由一個藝術家作為一個印象快速繪制的素描相似的特征提取。
- 一個2.5 d素描現場有紋理承認等的注意,在這里畫一個藝術家的亮點或陰影場景的領域,為客戶提供深度的概念到舞台的相似性。
- 阿3 d模型,其中,所述場景是在一個連續的,3維地圖可視化。[26]
Marr的2.5D草圖假設構建了深度圖,並且該圖是3D形狀感知的基礎。然而,立體和圖像感知以及單眼觀察都清楚地表明3D形狀的感知先於並且不依賴於對點的深度的感知。目前尚不清楚原則上如何構建初步深度圖,以及如何解決圖形 - 地面組織或分組問題。Marr忽略了感知組織約束在從雙目觀看的3D物體生成3D形狀感知中的作用已經在3D線對象的情況下進行了實證證明,例如[27]有關更詳細的討論,請參閱Pizlo(2008 )。[28]
轉導[ 編輯]
轉導是將來自環境刺激的能量轉化為神經活動的過程。的視網膜包含三個不同的細胞層:感光層,雙極細胞層和神經節細胞層。發生轉換的感光層距離鏡片最遠。它包含具有不同靈敏度的光感受器,稱為桿和視錐細胞。錐體負責顏色感知,並且具有標記為紅色,綠色和藍色的三種不同類型。桿,負責在低光下感知物體。[29]光感受器中含有一種稱為光色素的特殊化學物質,它嵌入薄片的膜中; 一個人的桿包含大約1000萬個。光色素分子由兩部分組成:視蛋白(蛋白質)和視黃醛(脂質)。[30]有3種特定的光色素(每種都有自己的波長靈敏度),可以在可見光光譜范圍內作出響應。當適當的波長(特定光色素敏感的波長)撞擊感光器時,光色素會分裂為兩個,它向雙極細胞層發送信號,雙極細胞層又向神經節細胞發送信號,其軸突形成在視神經並將信息傳遞給大腦。如果由於遺傳異常導致特定錐體類型缺失或異常, 則會出現色覺缺陷,有時稱為色盲。[31]
對手進程[ 編輯]
轉導涉及從光感受器發送到雙極細胞到神經節細胞的化學信息。幾個光感受器可以將它們的信息發送到一個神經節細胞。有兩種類型的神經節細胞:紅色/綠色和黃色/藍色。即使沒有受到刺激,這些神經元也會不斷射擊。當這些神經元的發射速率改變時,大腦會解釋不同的顏色(以及大量信息,圖像)。紅光刺激紅色錐體,紅色錐體又刺激紅色/綠色神經節細胞。同樣地,綠光刺激綠色錐體,其刺激紅色/綠色神經節細胞,藍色光刺激刺激黃色/藍色神經節細胞的藍色錐體。當神經節細胞通過一個錐體發出信號時,神經節細胞的發射速率增加;當通過另一個錐體發出信號時,神經節細胞的發射速率降低(抑制)。神經節細胞名稱中的第一種顏色是激發它的顏色,第二種顏色是抑制它的顏色。即:紅色錐形物將激發紅色/綠色神經節細胞,綠色錐形細胞將抑制紅色/綠色神經節細胞。這是個對手過程。如果紅色/綠色神經節細胞的射擊率增加,大腦會知道光是紅色的,如果速率降低,大腦會知道光的顏色是綠色。[31]
人工視覺[ 編輯]
視覺感知的理論和觀察一直是計算機視覺(也稱為機器視覺或計算視覺)的主要靈感來源。特殊的硬件結構和軟件算法使機器能夠解釋來自攝像機或傳感器的圖像。人工視覺感知長期以來一直在業界使用,現在正進入汽車和機器人領域。[32] [33]