本文是翻譯文,原文信息如下:
Ali Borji and Laurent Itti,
State-of-the-art in Visual Attention Modeling ,
IEEE Transactions on Pattern Analysis and Machine Intelligence, In press.
【聲明:如需要,請引用原文
由於本人水平有限,翻譯中可能有錯誤,僅供參考。
未經本人同意,請勿轉載!】
題目:注意力模型的當前發展水平
作者:Ali Borji, and Laurent Itti
摘要:視覺注意力的建模,特別是刺激驅動的,基於顯著性的注意力,在過去25年內已經是一個非常活躍的研究領域。現在有很多不同的模型,除了給其他領域帶來理論貢獻以外,這些模型已經在計算機視覺,移動機器人,和認知系統展示出成功的應用。這里我們從計算角度綜述應用在這些模型的基本概念。我們提出了對大概65個模型的分類,提供了一個方法、性能和缺點的關鍵的比較。特別是,提出了從行為研究和計算研究得出的13個標准,來量化筆記注意力模型。並且,我們解決了一些具有挑戰的模型問題,包括計算模型的生理解釋,與眼動數據庫的關系,自上而下和自下而上的分離,以及構建有意義的性能指標。最后,我們突出注意力模型的今后研究方向,為未來提出見解。
1,介紹
每秒鍾有大量的視覺信息進入人們的眼睛[1][2]。如果沒有一個智慧的機制來濾除視覺數的中的錯誤的數據,實時處理這些數據將是一個非常恐怖的事情。高層次的認知和復雜處理,比如物體認知或者場景理解,都依賴這些經過這種方式【注:一個智慧的機制來濾除視覺數的中的錯誤的數據】轉換過的易處理的數據。本文將討論的這個機制就是視覺注意力,他的核心在於選擇機制的思想以及相關的概念。對人類來說,注意力通過已經進化為高分辨率的中央凹的視網膜【注:中央凹(central fovea):是眼球后極視網膜上一個淺黃色的區域,稱為黃斑。其中央有一橢圓形小凹,稱為中央凹】和一個底分辨率的周圍區域實現的。盡管視覺注意力將這些解剖學組織指向場景中的重要部分來采集更具體的信息,(視覺注意力模型的)主要問題是基於這個指向的計算機制。
近年來,科學研究的很多方面已經旨在回答這個問題。心理學家研究了視覺注意力的相關行為,比如變化盲點[3][4]【注:變化盲點Change blindness是一個心理學現象,當刺激發生變化時,人們往往無法注意到】,無注意力盲點[5]【注: 無注意力盲點inattentional blindness是我們無法注意到一些顯而易見的激勵】和注意瞬脫[6]【注:注意瞬脫attenional blink是指在一個連續的注視過程中,我們會短時間內無法注意到一些顯著的物體或者其他東西】。神經生理學家證明了神經元是如何適應自己來更好的感知感興趣的物體[27][28]。計算神經科學家已經構建了現實的神經網絡模型來模擬和解釋注意力行為(比如[29][30])。受這些研究的鼓勵,機器人學家和計算機視覺科學家已經試圖解決計算復雜度的內在問題來構建能夠實時工作的系統(比如[14][15])。盡管現在在以上提及的研究領域已經有很多模型,這里我們僅討論能夠計算圖像或者視頻的顯著圖的模型(見下節的定義)。對於計算視覺注意力的計算模型的一般綜合,包括偏向競爭[10],選擇調節[15],注意力模型的規范化[181],和其他模型,參考[8]。從心理學、神經生理學以及計算角度出發的注意力模型的綜述,參考[9][77][10][12][202][204][224]。圖1顯示了注意力研究的分類,並突出了我們的綜述范圍。
1.1 定義
盡管術語 attention,saliency和gaze經常被相互替換使用,但是他們之間有更細微的描述他們的定義。
注意力attention是一個普遍概念,覆蓋了影響選擇機制的各個方面,無論他們是場景驅動的自下而上的機制或者是預期驅動的自上而下機制。
顯著性saliency直覺上刻畫了場景的一些部分,可能是物體或者區域,這些部分似乎相對他們的臨近區域突出。術語“salient” 通常在自下而上的計算模型[18][14]中提及到。
Gaze,一個眼睛和腦的協調運動,通常被用作注意力在自然行為中的代名詞。(見[99])。比如,一個人或者一個機器人必須和周圍的物體進行交互,在場景中移動是控制注意點來執行任務。從這點講,注意點控制同時集視覺,行為和注意力來執行感覺運動協調,這是某些特定行為(比如到達reaching和理解grasping)所必須的。
1.2 起源
很多注意模型的基礎能夠追溯到Treisman&Gelade's[81],他們提出的“特征整合理論”陳述了那些視覺特征是重要的以及他們如何組合來在彈出式的和連續的搜尋任務中引導人們的注意力。Koch and Ullman[18] 提出了一個前饋模型來組合這些特征,並引入了saliency map的概念,saliency map 是表示場景位置突出性的地形圖。他們同時引入了一個winner-take-all神經網絡,這個網絡選擇最顯著的位置,利用返回抑制機制使注意力焦點移向下一個最顯著的位置。一些系統隨即創建出來,利用相關模型來處理數字圖像[15][16][17]。Koch&Ullman模型的第一個完整的實現以及驗證由Itti等人[14]提出(見圖2),並應用於人造場景和自然場景。從此以后,這個領域受到持續的關注。基於不同對注意力模型的假設的各種各樣的方法涌現出來,並在不同的數據庫上進行驗證。在接下來的章節中,我們提出一個統一的概念框架,在這個框架下我們將討論每個模型相比其他模型的優點和缺點。我們將給作者深入的分析關於注意力模型的當前技術的發展,確定當前依舊面臨的問題。
對注意力建模的主要關注點在於如何,何時以及為什么我們選擇行為相關的圖像區域。由於這些原因,提出了一些定義和計算視角。一個通用的方法是從前期人類視覺系統(early human visual system)的解剖學和功能性來獲得靈感(比如[14][15][16][191])。另外,一些研究假設視覺注意力服從那些函數,並將它形成一個計算框架。比如,大家一致認為視覺注意力能吸引更多的信息[144],更多的意想不到的場景區域[145],或者關於一個任務的最大化回報[109]。
1.3 經驗基礎
注意力模型通常通過觀測者的眼球運動來驗證。眼球運動傳達了關於認知過程的重要信息,比如閱讀、視覺搜索和場景感知。因此,他們通常被看做是注意力轉移的表達方式。比如說,在場景感知和視覺搜索中,當激勵比較混亂時,注意點會變得更長,同時掃描線變得更短[19]。任務的難度(比如說全面閱讀對主旨閱讀,或者在場景中尋找人對用於記憶力測試的圖像瀏覽)明顯影響着眼球運動行為[19]。盡管注意力模型和眼球運動預測模型經常用眼球運動數據進行驗證,但是在范圍、方法、激勵以及細節的層次上存在着細微的差別。眼球運動預測模型(掃描規划)試圖理解注意力的數學支撐和理論支撐。一些實例包括搜索過程(比如優化搜索理論[20],信息最大化理論[21],Mr.Chips: 一個理想觀測者的閱讀模型[21],EMMA(眼球運動和注意力運動)模型[139],控制眼球運動的HMM模型[26]和約束的隨即游動模型[175])。為了這個目的,他們通常使用簡單可控制的激勵,同時另一方面,注意力模型利用啟發的、認知的和神經特征的組合,以及機器學習和計算機視覺的一些工具,來解釋在簡單和復雜場景的眼球運動。注意力模型同時關注實際實用性。對於所有的眼球運動模型的綜述超出了本文的范圍。感興趣的讀者參考關於眼球運動的研究[22][23][127]和眼球跟蹤應用的寬度優先的調查[25]。
注意到眼球運動並不總是表示出真實的事實,而且存在着其他度量標准來衡量模型。比如,正確報告圖中一次變化的准確性(也就是 search-blindness[5]),或者預測能夠被記住的那些視覺吸引東西,這些能顯示出單獨分析眼球運動所或略的注意力的重要方面。很多視覺搜索的注意力模型用精確估計反應時間(RT)(比如,RT/setsize slopes in pop-out and conjunction search tasks[224][191])。
1.4 應用
本文中,我們將關注描述模型本身。但依然有很多關於今年來提出的模型的技術應用,並對注意力模型的關注度會進一步的增加。我們對模型的應用分成三個類別:視覺和圖形,機器人和圖3所示的其他領域。
1.5本文的申明和組織
注意力很難正式定義成一個被廣泛接受的方式。然而,從計算角度來看,很多注意力模型(至少那些在自由注視的眼球運動的前幾秒上測試的模型)能被統一到以下的普遍的問題稱述中。假設K個觀察員看了N副圖,令*是眼睛注視點以及他們對應的時間*。對於第i副圖的k個觀察員的注視點的個數用*表示。注意力模型的目的是找到一個函數(stimuli-saliency map)*,這個函數最小化眼睛注視點預測的誤差,也就是*。這里一個重要的點是以上的定義更好的符合自下而上顯式注意力模型,也許並不總是覆蓋視覺注意力的其他方面。(比如顯式注意力或者top-down因素),這些不能用眼球運動來解釋。
這里我們對主要的應用於任意圖像的注意力模型進行系統的綜述。第二章將介紹分類這些模型的幾個因素。在第三章,我們根據這些因素總結和分類視覺模型。第四章討論這些模型的局限性和所遇到的問題。第五章對全文進行總結。
2 分類標准
我們從引入13個標准f1...f13開始,這些標准將用來對注意力模型進行分類。這些標准都源於注意力在行為和計算方面的研究。一些標准描述了模型(f1,f2,f3),其他的(f4...f7,f12,f13)並不直接相關,但是他們對於覺得這些模型的實用性非常重要。
2.1 Bottom-up VS Top-down模型
模型之間一個主要的差別是他們是否依賴bottom-up因素(f1),top-down因素(f2)或者是二者的組合。
Bottom-up因素主要基於視覺場景的特性(激勵驅動)[75],而top-down因素(任務驅動)由認知現象如知識、期望、獎勵和當前任務決定的。
由bottom-up方式吸引我們注意力的感興趣區域必須充分地不同於與其周圍特征。這種注意力機制同樣叫做外在的,自動的,靈活的或者周邊的因素[78]。Bottom-up注意力是快速的,無意識的,並最可能是前饋的。 一個典型的bottom-up注意力的例子是看一副在有很多條垂直條紋中只有一條水平條紋的場景圖中,注意力馬上就會被吸引到水平條紋上[81]。盡管很多模型屬於這一類型,他們僅僅解釋了眼球運動的一小部分,因為大多數注視點是由任務驅動的[177]。
另一方面,top-down注意力比較慢,任務驅動,有意識的和閉合回路的[77]。top-down注意力最著名的例子是來源於1967年的Yarbus[79],他展示了依靠當前任務的眼球運動的如下實驗:測試者要求在不同的條件(問題)下看同一場景(在有一家人的房屋中,一個不速之客進入房間),這些問題包括:“估計這個家庭的物質環境”,“人們的年齡是多少”,或者簡單的仔細觀察場景。對於以上不同的例子,眼球運動明顯不同。
模型探索了三個主要的針對特定問題的top-down因素的來源,這個問題是:我們如何覺得看哪里?一些模型解決了視覺搜索中,注意力被吸引到我們要尋找的物體的特征上這樣的問題。另外一些模型探討了我們在場景中看到的位置的內容或者主旨(gist)的角色。在某種情況下,很難准確的說我們在場景中看哪或者看什么,因為由一個復雜的任務管理眼睛的注視點,比如在開車的過程中。雖然原則上,任務要求注意力包含其他兩個因素,在實際中,模型往往分開關注他們。場景布局也被看作是top-down注意力的一個來源[80][93],並在這里與場景內容一起考慮。
1), 物體特征。有相當多的關於在現實世界搜索任務中存在目標驅動的注意力指引(attention guidance)的證據[84][85][23][83]。在經典的搜索任務中,目標特征在一個無處不在的注意力指引的來源[81][82][83]。考慮在簡單的目標箭頭是紅色的箭頭簇中搜索:注意力快速地指向那個紅色的箭頭。拿這個與更負責的目標物體做比較,比如說自然情景中的行人,這種情況下盡管很難定義目標,但是依然存在一些特征(比如直立形式,圓頭,直直的身體)指引視覺注意力[87]。
引導搜索理論[82]提出注意力能夠偏向於感興趣的目標,通過調整貢獻於注意力的不同特征的相對增益。回到我們以前提出的例子中,當看一個紅色的物體,一個很高的增益賦給紅色。Navalpakkam等人[51]提出優化特征組合(BU 顯著模型[14]的通道)按照最大化目標與背景的信噪比來檢測目標。在[50]中,將一個基於物體唯一性的准則的加權函數,在將每幅圖加起來之氣,作用到每幅圖中來定位物體。Butko等人[161]基於由Najemnik等人[20]在一個特定中進行人臉檢測和跟蹤的觀察框架中陳述的相同的視覺搜索原理,構建物體搜索模型,但是他們沒有利用這么模型解釋在搜索人臉中眼睛注視點。Borji等人[89]用進化算法在一個基本的顯著模型參數空間中搜索來尋找目標。Elazary和Itti[90]提出了一個模型,該模型中top-down注意力能調整首選特征(比如一個特定的灰度)和調整特征檢測器的寬度,從而給出相比調節固定特征檢測器的增益模型而言很靈活的top-down調整模型。最后但是並不是不重要的研究包括[147][215][141],他們都是從制定目標物體搜索的方法出發提出一個顯著性度量方法。
前面提到的關於在視覺搜索中物體特征的角色的研究與計算機視覺中的物體檢測非常相近。一些物體檢測方法(比如Deformable Part Model by Felzenszwalb等人[206]和the Attentional Cascade of Viola and Jones[220])對於一些物體,如小汽車,人以及人臉有很高的檢測率。與認知模型相比,這類方法通常是純計算方法。關於這兩個領域如何相關的研究將可能對雙方領域都帶來好處。
2)場景內容。當簡要的展示一副圖時(小於或等於80毫秒),一個觀察者通常能夠描述場景的核心特征[176][71]。這是一個非常粗糙的場景表示,通常叫做“主旨gist”,不包含單個物體更多的細節信息,但是能夠提供足夠的粗糙場景區分信息(比如室內場景和室外場景)。意識到這點很重要:gist並不顯示場景的語義類別。Chun and Jiang[91]證明了那些位於相對一些背景重復出現的結構中的物體能夠很快的被檢測到[71]。在特定場景中物體間的語義關聯(比如電腦通常在桌子上)或者內容信息同樣在指引眼球運動中起着重要的角色[199][84]。
已經存在一些關於利用不同類型的底層特征的gist模型。Olive and Torralba[93]在圖像上計算非重疊窗函數傅里葉變換的幅頻。他們接着利用主成分分析(PCA)和獨立成分分析(ICA)來降低特征的維度。Renninger and Malik[94]對輸入圖像利用Gabor濾波器過濾,利用K-means聚類算法從訓練庫上提取100個普遍的taxtons。他們的gist特征是這些普遍taxtons上的直方圖。Siagian and Itti[95]用生物學的中心-周圍區域對比,在方向,顏色和灰度通道特征上對gist建模。Torralba[92]用小波分解調節6個方向和4個尺度。為了提取gist,通過在4*4方上的錄波器響應求平均值形成向量。同樣,他利用PCA,將384維向量降至80維gist向量。對於gist的比較,請參考[96][95]。
Gist的表達方式逐漸在計算機視覺領域內邊的流行起來,因為他們提供了豐富的全局區分信息,對很多應用非常有幫助,比如當今大規模場景數據庫上的搜索[116],將搜索縮小到包含感興趣物體的區域[92][87],場景實現[205],和top-down模型建模[101][218]。因此可以看出這個方向的研究具有很大的潛力。
3)任務需求。任務對於注意力的部署具有很大的影響[79]。據說視覺場景可以解釋為基於需求的方式執行需求的任務[97]。Hayhoe等人[99]指出當處理復雜任務時視覺感知和眼球運動之間存在着很強的聯系。測試者執行視覺導向的任務時,通常發現他們將更多的注視點導向那些與任務有關的位置[99]。通常有可能推斷出一個方法,測試員在內心中記住眼球運動的模式。比如說在“block-copying”任務中,測試員需要重現每個積木的組裝方式,測試者完成任務的方式就顯示了眼球運動的模式【注:這段沒太懂原文的意思】。測試員首先選擇目標積木來在模型中確定其位置,然后關注工作區域的積木來在對應位置上放置新的積木[216]。其它研究探討了在自然場景中gaze基於任務的行為,比如三明治制作,駕駛汽車,板球運動,和行走(見Henderson and Hollingworth[177],Rensink[178],Land and Hayhoe[135], and Bailensen and Yee[179])的高層因素。Sodhi等人[180]研究了在駕駛中的一些分心行為,比如調節音頻音量或者接電話,對眼睛運動的影響。
流行的觀點是bottom-up和top-down注意力組合影響着注意力行為。一個組合方法應該能夠解釋何時以及如何趨向一個top-down視覺物體,或者跳過它,由於底層顯著因素。最近,[13]提出了一個Bayesian方法解釋了對於top-down注意力因素和對比或者方向的bottom-up因素進行最優組合方式。Navalpakkam和Itti[80]提出了一個任務驅動認知模型,包含這樣的假設:用於解決任務的方向以及存在了。Peters和Itti[101]在游戲視頻中學習了一個從場景的gist投眼睛的注視點的top-down映射。組合方式就是簡單的BU和TD模塊的相乘。
2.2 空間VS時空模型
在實際世界中,我們面臨的視覺信息會發生持續不斷的變化,由於自我中心或者外邊世界的動態變化。視覺選擇這時同時依賴當前的場景顯著性和以前時間的累積知識。因此,一個注意力模型應該能夠捕捉到那些在時空方式中重要的場景區域。
在第三章中將有更詳細的闡述,幾乎所有的模型都包含了一個空域模塊。我們能夠從兩種類型的對時域信息進行建模的saliency模型:1)一些bottom-up模型用運動通道來捕捉吸引到移動激勵的視覺注意力點[119]。最近,一些研究者開始進行時域對bottom-up的影響進行建模[143][104][105]。2)另一方面,一些模型[109][218][26][25][102]試圖捕捉任務的時空方面的信息,比如通過學習注意物體的序列或者任務過程中的行動序列。比如,注意力門模型Attention Gate Model(AGM)[183]重點強調了注意力的時間相應性質和量化描述了人類往往注意的序列激勵目標。圖像的先前信息,注視點,注視點的圖像內容信息,物理行為,以及其他傳感器的激勵(比如音頻)用來預測眼球的下一運動點。加入時間維度,以及自然交互行為的現實性帶來了一系列的在利用計算模型預測注意點的應用。
用來建立視覺注意的時間方面的合適的環境是動態的,具有交互步驟的電影和游戲。Boiman and Irani[122]提出了用於從視頻中進行不規則檢測算法,在一個學習的不規則行為的數據庫上通過比較小塊的紋理實現。時間信息在激勵層面上是非常有限的,並且不包含高級認知功能,比如展示給注意力焦點的物品的序列,或者玩游戲是動作的序列。一些模型提取靜態和動態顯著圖,並提出算法來融合他們(比如Jia Li等人[133]以及Marat等人[49])。在[103]中,提出一個基於視頻時空注意力模型,通過組合兩幅圖像之間的差異的運動對比和從顏色直方圖中計算出來的時間對比。視覺實現環境VR也被使用[99][109][97]。一些其他處理時間維的模型是[105][108][103]。我們將在后面介紹這些模型。
因素f3顯示了一個模型是否僅僅用到時域信息或者利用時空信息估計顯著性。
2.3顯式注意和隱式注意
基於顯式的注意和隱式的注意是不同的。顯示注意力是將視網膜導向激勵的過程,而隱式注意力心理上注意一些可能的輸入激勵。隱式注意力的一個例子是,當一個人在說話時,他的視網膜周圍區域也是關注着整個視覺區域。另一個例子是在開車中,司機在關注馬路的同時,下意識地關注着路標和紅綠燈的狀態。當前的觀點是隱式注意是一種用來快速掃描感興趣區域。這種隱式轉換與眼球運動回路有關,這種回路建立感興趣區域的一個掃描回路[203]。然而,這也不能完全解釋隱式注意和顯示注意的復雜的交互關系。比如,有可能注意到右手邊的角的視野,而同時積極的抑制眼球移動到那個位置。很多模型檢查了那些吸引眼球的區域,但是很少能解釋伴隨着頭的運動的眼睛的顯示取向。缺少對顯式注意計算框架的原因可能是顯式注意的行為機制和功能依然是未知的。並且,我們不知道如何去度量顯式注意。
由於顯式注意和隱式注意的大量的重疊和他們也不是相互排斥的概念,顯著模型能夠考慮同時對顯式機制和隱式機制進行建模。然而,對這個主題的深入探討超出了本文的范圍,也需要在其他地方做特殊的處理。
2.4 基於空間模型VS基於物體模型
對於注意力尺度的單元沒有統一的認識:我們注意的是空間位置、是特征、還是物體?大量的心理學和神經生理學研究都是基於空間的注意力模型(比如Posner's spatial cueing paradigm[98][111])。同時也有大量的證據支持基於特征的注意力模型(在一個特征維度里檢測就的東西[81]或者特征選擇神經元的曲率調節[7])和基於物體的模型(選擇性地注意到兩個物體中的一個,比如人臉和花瓶的錯覺圖[112][113][84])。當前的觀點認為這些理論並不相互排斥,視覺注意力能夠分布到每個候選的單元點上,同時也暗示着沒有單一的注意單元。人類有能力同時注意到多個感興趣的區域[114][115]。
在現有的模型中,大多數模型都是基於空間的(見圖7)。也可以認為人類以物體作為top-down注意的基本工作和推理單元[84](與純像素值相比)。先前提出一些基於物體的模型,但他們沒有對於眼睛注意力的解釋(比如,Sun and Fisher[117],Borji等人[88])。這個缺點使得驗證模型變得困難。比如,Sun and Fisher[117]模型的缺點是用人對圖像進行分割,他引入了那些在前注意階段(在物體被認知的階段之前)並不存在的信息。現有的帶有物體標簽的圖像和視頻庫(比如 LabelMe Image and Video[116][188])能夠在這個方向做有效的研究。基於物體和基於空間模型之間的關系有待將來解決。基於特征的模型(比如[51][83])調整特征探測器的屬性,試圖使在分散的背景中令物體變得更加顯著。由於物體和視覺特征的緊密關系,本文將基於特征的模型歸類到基於物體的模型,見圖7.
第九個特征f9表示一個模型是否是基於空間的或者基於物體的,意味着他在物體上進行計算而不是單純的像素值。
2.5 特征
傳統上,根據特征組合理論(FIT)和行為研究[81][82][118],三個特征用於計算注意力的框架模型:亮度(或者亮度對比),顏色和方向。亮度同時是三個顏色通道的平均值(比如[14][117],然后通過受LGN和V1皮層內神經元響應啟發的中心-周圍對比處理。顏色受V1皮層內對比顏色神經元的啟發,提取紅綠和藍黃通道。顏色同樣也可以用其他空間,比如HSV[50]或Lab[160]。方向則通常利用方向Gabor濾波器處理。運動信息第一次在[119]中被使用,對圖像使用定向模板(在大腦運動區域,主要包括MT和MST區域,主要感知運動方向)。一些研究同樣加入一些特定的feature來引導注意力,比如皮膚色調[120],人臉[167],水平線[93],小波[133],gist[92][93],中心偏執[123],曲率[124],空間分辨率[125],光流[15][126],flicker[119],多重疊取向(交叉或角落)[127],墒[129],ellipses[128],對稱性[136],紋理對比[131],above average saliency[131],深度[130]和局部中心-周圍對比[189]。盡管很多模型使用有FIT[81]提出的特征,其他模型提出了一些其他特征,比如高斯差分(DOG)[144][141]和利用ICA和PCA方法從自然場景中提取的特征[92][142]。對於目標搜索,一些模型使用到了對於物體結構的描述子,比如局部方向直方圖[87][199]。詳細的關於視覺搜索和注意力導向的重要特征的描述,參考[118][81][82]。因素f10,基於模型使用的特征進行分類。
2.6激勵和任務類型
視覺激勵首先可以被分成靜態(比如search arrays,靜態圖,因素f4)或動態(比如視頻,游戲,因素f5)。視頻游戲是互動的,並且高度動態的,因此很難保證每次運行時都有相同的自然順序,盡管他們落后於自然統計,也不是具有相同的噪聲分布。這個機制更加復雜,更自相矛盾,計算更復雜。他們同時包含了大量的認知行為。
第二個區分在於人工合成激勵(Gabor錄波器塊,search arrays,漫畫,虛擬環境,游戲,因素f6)和自然激勵(圖片,自然場景的視頻,因素f7)。由於人們生活在動態的世界中,視頻和交互場景提供了,相比靜態圖片,一個更具有說服力的面對視覺系統的任務表達方式。另外一個研究注意力行為的領域的研究-虛擬現實場景代理-在Sprague and Ballard[109]的工作中體現。他們在VR中利用真實的human agent,並使用增強學習(RL)在導航任務中來協調行為選擇和視覺感知,比如壁障,保持側向行走和收集垃圾。
因素f8區分任務類型。三個主要的用來研究注意力模型的任務包括:(1)無約束觀察任務,測試員自由的觀察激勵(沒有任何任務或者問題,但是包含了內在的認知任務),(2)視覺搜索任務, 觀測員被要求在自然場景中尋找舊的東西或者一個特定的物體,(3)交互任務。在很多現實條件下,像駕駛和踢足球這樣的任務engage subjects tremendously。這些復雜的任務通常包括很多子任務,比如視覺搜索,物體跟蹤和聚焦和分散注意力。
2.7 衡量准則
我們有個模型產出一個顯著圖S,我們必須通過與眼動數據G相比較來量化衡量。我們如何比較他們?我們把這些圖想象成概率分布,利用Kullback-Leibler(KL)或Percentile標准來衡量兩個分布之間的距離。更或者我們考慮S是一個二值分類器,利用信號檢測理論分析(ROC曲線下的面積AUC標准)評估這個分類器的性能。我們還能將S和G想象成隨機變量,用相關系數(CC)或Normalized Scanpath Saliency(NSS)來衡量他們之間的統計關系。令一個方法是將G看成是眼動點的序列,並與從顯著模型中抽取的注視點序列進行比較(編輯距離)。
從理論上將,任何模型都能用任何標准進行衡量,在圖7中,我們列出因素f12表示每個模型中原作者用什么方式進行衡量。在其中,當我們使用Estimated Saliency Map(ESM S),我們的意思是模型的顯著圖,我們使用Ground-truth Saliency Map(GSM G),我們的意思是通過收集所有的注意點組合成的圖,或者組合所有經過人工標注的顯著區域形成的圖。
從另一個角度講,注意力模型的衡量准則大體上能夠分成三類:1)基於點的;2)基於區域的;3)主觀評價。在基於點的評價中,從ESMs中抽取的點與從GSMs中抽取的點相比較。基於區域的評價對衡量注意力很有幫助,在區域顯著數據庫上通過比較從ESMs上顯著區域和人工標注的區域(GSM人工標注)[133]。在[103]中,使用了評估顯著圖的主觀分數,主觀分數主要分為三個層次:“Good”,“Acceptable” 和“Field”。這個主觀評價的問題在於很難講起推廣到大規模的數據庫上。
下面我們將集中說明這些與文獻中保持一致的評價標准,以及給他人提供參考(Percentile[134],and Fixation Saliency Method(FS)[131][182])。
Kullback-Leibler(KL)散度:KL散度通常用來衡量兩個分布之間的距離。對於顯著圖講,同通常是計算顯著圖值的分布和人眼隨機注視點分布之間的距離[145][77]。令t(i)=1...N 表示N個實驗中的注視點。對於顯著模型,ESM在人類注視點x(i,human)和隨機點x(i,random)上進行采樣。在這些采樣點上,顯著值歸一化到[0,1]之間,然后計算直方圖。Hk和Rk分別表示第k個bin里的點的個數。最后KL的計算【參加原文公式1】。具有很高KL值的模型能更好的預測人類注視點的位置,因為觀測者通常注視具有很大響應的小部分區域,而忽略具有很小響應的大部分區域。相對於其他評分策略[212][131]KL散度的優點在於:1)其他衡量准則往往計算Hk相對於Rk的右移值,而KL對兩個直方圖的任何不同都很敏感;2)KL對S的再參數化(比如S的平方,開方以及其他)具有不變性。但是KL的一個缺點是它沒有明確的上界,如果兩個直方圖完全不同,則他們的KL散度將趨向無窮。
曲線形的面積(AUC):AUC是曲線ROC[195]下的面積。最為最流行的衡量准則,ROC用來衡量具有變量閾值的二值分類器的性能(通常用來在兩種方法之間分類,像saliency VS random)。用這種方法,模型的ESM被看作是在圖像每個像素點上的一個二值分類器。顯著值在閾值之上的點看作是注視點,而在閾值之下的看作是非注視點[144][167]。人注視點看作是ground-truth。通過改變這個閾值,ROC曲線可以在false positive rate和true positive rate坐標上繪制出來。這個曲線下的面試顯示了模型預測人眼注視點的能力大小。最理想的預測對應的score是1.這個准則具有平移不變形的優良特征,對於任何作用在saliency值上的單調遞增函數,這個曲線下的面積保持不變。如何ROC的計算參考文獻[192]。
線性相關系數(CC):這個衡量通常被用在比較兩幅圖的關系,比如圖像校准,物體識別以及不等性衡量[196][197]。線性相關系數衡量兩個變量的線性關系【見原文的公式2】。CC的一個有趣的優點是在單一尺度[-1 +1]下比較兩個變量。當CC值接近+1/-1時,兩個變量之間具有完美的線性關系。
字符串的編輯距離:為了使用這個衡量准則在顯著模型產生的感興趣區域和人眼注視點產生的感興趣區域之間做比較,顯著圖和眼運動圖首選要聚類成一些區域。這些感興趣區域ROI用saliency值或者人眼注視值進行排序。結果是排好的字符串形式,像stringA=”abcfeffgdc”和StringB=“afbffdcdf”。編輯相似性距離被定義為:基於三種基本運算(刪除,插入以及替換)的最佳方法。【參考其他書籍對編輯距離的闡述】參考[198][127]。對於這個范圍的闡述見[127]。
2.8 數據庫
已經有一些在靜態圖像中眼動數據庫(研究靜態顯著性)和視頻(用來研究動態顯著性)。在圖7中,我們列出因素f13來顯示使用的數據庫。這里,我們僅僅提及那些主要用來衡量和比較模型的數據庫,盡管還有其他工作收集了一些特定目的的數據庫(比如:駕駛,三明治制作以及block copying[135])。
圖4和圖5總結了圖像和視頻的眼動數據庫。研究者同樣適用鼠標滑動來跟蹤注視點。盡管這些數據含有噪聲,一些前期的結果表現出合理的較好的ground-truth估計。比如,Scheier and Egner[61]表明鼠標滑動模式與眼動跟蹤非常相近。基於網頁的鼠標跟蹤系統有TCTS實驗室開發出來[110]。其他有潛力的數據庫(不是眼動數據庫)是手動標注的庫,如PASCAL和Video LabelMe。一些工作用到了這類數據[116]。
3. 注意力模型
以下部分是對不同模型的稱述和總結。本文不做翻譯。具體請參考原文。
本文最重要的一副圖在原文的圖7.這里列出來以供參考。
從參考文獻看,本文所引用的文獻都是2011年及以前的文章。
在所有的參考文獻中,有Itti署名的參考文獻有19篇。
下面就本文引用的重要的論文的文章列出如下(以引用順序排序):
[14] L. Itti, C. Koch, and E. Niebur, “A Model of Saliency-Based Visual Attention for Rapid Scene Analysis,” IEEE Transactions on PAMI, vol. 20, no. 11, pp. 1254-1259, 1998。
[20] J. Najemnik and W.S. Geisler, “Optimal Eye Movement Strategies in Visual Search,” Nature, no. 434, pp. 387-391, 2005.
[41] O. Le Meur, P. Le Callet, D. Barba, and D. Thoreau, “A Coherent Computational Approach to Model Bottom-Up Visual Attention,” IEEE PAMI, vol. 28, no. 5, pp. 802-817, 2006.
[64] G. Heidemann, ”Focus-of-attention from Local Color Symmetries,“IEEE Trans PAMI, vol. 26, no. 7, pp. 817-830, 2004.
[95] C. Siagian and L. Itti, “Rapid Biologically-Inspired Scene Classification Using Features Shared with Visual Attention,” IEEE
PAMI, vol. 29, no. 2, pp. 300-312, 2007.
[105] V. Mahadevan and N. Vasconcelos, “Spatiotemporal Saliency in Dynamic Scenes.” IEEE PAMI, vol. 32, no. 1, 2010.
[147] D. Gao, S. Han and N. Vasconcelos, “Discriminant Saliency, the Detection of Suspicious Coincidences, and Applications to Visual Recognition.” IEEE Trans. PAMI. vol. 31, no. 6, 2009.
[153] T. Avraham, M. Lindenbaum, ”Esaliency (Extended Saliency):Meaningful Attention Using Stochastic Image Modeling,“ IEEE PAMI, vol. 32, no. 4, pp. 693-708, 2010.
[192] X. Hou, J. Harel, and Christof Koch, ”Image Signature: Highlighting sparse salient regions,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012.
【本文完】