這篇文章是圖像顯著性領域最具代表性的文章,是在1998年Itti等人提出來的,到目前為止引用的次數超過了5000,是多么可怕的數字,在它的基礎上發展起來的有關圖像顯著性論文更是數不勝數,論文的提出主要是受到靈長類動物早期視覺系統的神經結構和行為所啟發而產生了視覺注意系統。靈長類動物具有很強的實時處理復雜場景的能力,視覺信息進行深入的處理之前,對所收集到的感覺信息進行選擇,這些選擇可能減少場景理解的復雜性,這個選擇過程在一個空間有限的視野區域即所謂的注意焦點(focus of attention, FOA)中完成的,它搜索場景的方式可以是快速、自下而上(bottom-up,BU)、顯著驅動和任務獨立的方式,也可以是慢速、自上而下(top-down,TD)、意志控制和任務相關的方式。注意模型包括“動態路由”模型,在此模型中,通過皮層視覺繼承,從一個小的視野區域中得到的信息可以不斷前行。通過皮層連接的動態修正或在TD和BU的控制下對活躍區建立特定的瞬時模式,來選擇注意區域。
這篇文章所使用的模型建立在由Koch和Ullman所提出的生物模型和其他幾個模型。它和所謂的特征整合模型相關,解釋了人類視覺搜索策略。視覺輸入首先被分為一系列特征地形圖。然后在每個圖中,不同的空間位置通過競爭獲取顯著性,只有從周圍脫穎而出的位置才能保留。所有的特征圖以純粹的BU方式輸入到高級的顯著性圖,它對整個視覺場景的局部醒目度進行地形編碼。在靈長類動物中,人們相信這種圖存在於后頂葉皮層(posterior parietal cortex)中,同時也存在於枕核丘腦(pulvinar nuclei ofthalamus)中。模型的顯著性圖被認為是產生注意轉移的內部動力。因此這個模型表示了BU顯著性可以引導注意轉移,不需要TD。這個模型在可以進行並行處理,提高運算速度,而且可以根據特征的重要性,為特征加上權值,特征越重要,權值越大。(感覺是對文中的翻譯,在網上也有PPT和論文介紹)
1、模型

上圖為整個模型的結構圖,首先輸入一張彩色圖片,采用高斯金字塔對該圖片進行下采樣,生成9張尺度圖,其中尺度0表示該尺度圖像與原圖像的像素面積比例是1:1,尺度8表示該尺度圖像與源圖像面積為1:256。“Center-surround” difference operations,即中央周邊差操作,是根據人眼生理結構設計的。人眼感受野對於視覺信息輸入中反差大的特征反應強烈,例如中央亮周邊暗的情況、中央是綠色周邊是紅色的情況等,這都屬於反差較大的視覺信息。在高斯金字塔中,尺度較大的圖像細節信息較多,而尺度較小的圖像由於高斯平滑和減抽樣操作使得其更能反映出局部的圖像背景信息,因而將尺度較大的圖像和尺度較小的圖像進行跨尺度減操作(across-scale),能得到局部中心和周邊背景信息的反差信息。跨尺度減的具體算法如下:通過將代表周邊背景信息的較小尺度的圖像進行線性插值,使之與代表中心信息的較大尺度的圖像具有相同大小,然后進行點對點的減操作,即中央周邊差操作,這樣的跨尺度減操作使用符號Θ表示。對每個特征通道的高斯金字塔進行中央周邊差操作,依次檢測圖像中的特征不聯系性,即中心和周邊背景信息反差對比強烈的區域,很好地模仿了視網膜上探測突出目標的生理機制。在模型中,代表中心信息的圖像尺度c取c∈{2,3,4},代表周邊背景信息的圖像尺度s取s=c+δ,其中δ∈{3,4},從而在每個特征通道里可以產生6個尺度對,即{2-5,2-6,3-6,3-7,4-7,4-8},在每個特征通道可以產生6張中央周邊差結果圖,所以7個通道共有42張中央周邊差圖,中央周邊差結果圖在該模型中被稱為特征圖(Feature Map)。
2、早期視覺特征提取
①、亮度提取,用r,g,b分別表示圖像紅、綠、藍三個通道的值,因此亮度I可以表示為I=(r+g+b)/3,由於輸入圖片是9個尺度的高斯金字塔圖片,所以I也對於9個尺度高斯金子塔亮度圖。
②、顏色提取,r,g,b通道采用I進行歸一化以從亮度中解耦色調。產生了四個寬調諧(broadly-tuned)的顏色通道,從這些顏色通道中產生四個高斯金字塔R,G,B,Y。
R=r-(g+b)/2,G=g-(r+b)/2,B=b-(r+g)/2,Y=(r+g)/2-|r-g|/2-b,如果為負數則設為0。
③、方向特征,方向特征主要是使用Gabor濾波器對圖像的亮度特征在0°,45°,90°,135°四個主要方向上進行濾波得到的。因此,Gabor濾波器可以很好地模擬人類視皮層簡單細胞的信號處理特點,其結果直接體現了圖像局部方向特征的信息。在Gabor濾波器某個方向的濾波結果中,給定區域的能量可以反映該區域灰度圖在該方向的特征是否強烈,即反映了區域內的該方向的直線或者規則紋理的朝向特征是否明顯。因此方向特征的提取可以直接使用幾個方向的Gabor濾波器進行濾波獲得。
I(c,s)=|I(c)ΘI(s)| c∈(2,3,4),s=s+δ,δ∈(3,4)
RG(c,s)=|(R(c)-G(c))Θ(G(s)-R(s))|
BY(c,s)=|(B(c)-Y(c))Θ(Y(s)-B(s))|
第三組特征圖集:采用方向Gabor金字塔得到局部方向信息,采用4角度和6尺度來表示角度和方向。最后得到方向特征圖:O(c,s,θ)=|O(c,θ)ΘO(s,θ)|;
3、顯著性圖
4、關注焦點的定位與轉移(這部分沒仔細了解,只是引用了其他學者的論文,如果有更詳細的解答,不妨大家一起分享)
5、和空間頻率范圍模型做比較
6、總結
