圖像顯著性論文（一）—A Model of saliency Based Visual Attention for Rapid Scene Analysis

本文轉載自查看原文 2015-12-18 20:57 3585 機器學習/ 科研

這篇文章是圖像顯著性領域最具代表性的文章，是在1998年Itti等人提出來的，到目前為止引用的次數超過了5000，是多么可怕的數字，在它的基礎上發展起來的有關圖像顯著性論文更是數不勝數，論文的提出主要是受到靈長類動物早期視覺系統的神經結構和行為所啟發而產生了視覺注意系統。靈長類動物具有很強的實時處理復雜場景的能力，視覺信息進行深入的處理之前，對所收集到的感覺信息進行選擇，這些選擇可能減少場景理解的復雜性，這個選擇過程在一個空間有限的視野區域即所謂的注意焦點（focus of attention， FOA）中完成的，它搜索場景的方式可以是快速、自下而上（bottom-up，BU）、顯著驅動和任務獨立的方式，也可以是慢速、自上而下（top-down，TD）、意志控制和任務相關的方式。注意模型包括“動態路由”模型，在此模型中，通過皮層視覺繼承，從一個小的視野區域中得到的信息可以不斷前行。通過皮層連接的動態修正或在TD和BU的控制下對活躍區建立特定的瞬時模式，來選擇注意區域。

這篇文章所使用的模型建立在由Koch和Ullman所提出的生物模型和其他幾個模型。它和所謂的特征整合模型相關，解釋了人類視覺搜索策略。視覺輸入首先被分為一系列特征地形圖。然后在每個圖中，不同的空間位置通過競爭獲取顯著性，只有從周圍脫穎而出的位置才能保留。所有的特征圖以純粹的BU方式輸入到高級的顯著性圖，它對整個視覺場景的局部醒目度進行地形編碼。在靈長類動物中，人們相信這種圖存在於后頂葉皮層（posterior parietal cortex）中，同時也存在於枕核丘腦（pulvinar nuclei ofthalamus）中。模型的顯著性圖被認為是產生注意轉移的內部動力。因此這個模型表示了BU顯著性可以引導注意轉移，不需要TD。這個模型在可以進行並行處理，提高運算速度，而且可以根據特征的重要性，為特征加上權值，特征越重要，權值越大。（感覺是對文中的翻譯，在網上也有PPT和論文介紹）

1、模型

上圖為整個模型的結構圖，首先輸入一張彩色圖片，采用高斯金字塔對該圖片進行下采樣，生成9張尺度圖，其中尺度0表示該尺度圖像與原圖像的像素面積比例是1：1，尺度8表示該尺度圖像與源圖像面積為1：256。“Center-surround” difference operations，即中央周邊差操作，是根據人眼生理結構設計的。人眼感受野對於視覺信息輸入中反差大的特征反應強烈，例如中央亮周邊暗的情況、中央是綠色周邊是紅色的情況等，這都屬於反差較大的視覺信息。在高斯金字塔中，尺度較大的圖像細節信息較多，而尺度較小的圖像由於高斯平滑和減抽樣操作使得其更能反映出局部的圖像背景信息，因而將尺度較大的圖像和尺度較小的圖像進行跨尺度減操作（across-scale），能得到局部中心和周邊背景信息的反差信息。跨尺度減的具體算法如下：通過將代表周邊背景信息的較小尺度的圖像進行線性插值，使之與代表中心信息的較大尺度的圖像具有相同大小，然后進行點對點的減操作，即中央周邊差操作，這樣的跨尺度減操作使用符號Θ表示。對每個特征通道的高斯金字塔進行中央周邊差操作，依次檢測圖像中的特征不聯系性，即中心和周邊背景信息反差對比強烈的區域，很好地模仿了視網膜上探測突出目標的生理機制。在模型中，代表中心信息的圖像尺度c取c∈{2,3,4}，代表周邊背景信息的圖像尺度s取s=c+δ，其中δ∈{3,4}，從而在每個特征通道里可以產生6個尺度對，即{2-5,2-6,3-6,3-7,4-7,4-8}，在每個特征通道可以產生6張中央周邊差結果圖，所以7個通道共有42張中央周邊差圖，中央周邊差結果圖在該模型中被稱為特征圖（Feature Map）。

2、早期視覺特征提取

①、亮度提取，用r，g，b分別表示圖像紅、綠、藍三個通道的值，因此亮度I可以表示為I=（r+g+b）/3，由於輸入圖片是9個尺度的高斯金字塔圖片，所以I也對於9個尺度高斯金子塔亮度圖。

②、顏色提取，r，g，b通道采用I進行歸一化以從亮度中解耦色調。產生了四個寬調諧（broadly-tuned）的顏色通道，從這些顏色通道中產生四個高斯金字塔R,G,B,Y。

R=r-(g+b)/2,G=g-(r+b)/2,B=b-(r+g)/2,Y=(r+g)/2-|r-g|/2-b,如果為負數則設為0。

③、方向特征，方向特征主要是使用Gabor濾波器對圖像的亮度特征在0°，45°，90°，135°四個主要方向上進行濾波得到的。因此，Gabor濾波器可以很好地模擬人類視皮層簡單細胞的信號處理特點，其結果直接體現了圖像局部方向特征的信息。在Gabor濾波器某個方向的濾波結果中，給定區域的能量可以反映該區域灰度圖在該方向的特征是否強烈，即反映了區域內的該方向的直線或者規則紋理的朝向特征是否明顯。因此方向特征的提取可以直接使用幾個方向的Gabor濾波器進行濾波獲得。

第一組特征圖集：中心細尺度c和周圍粗尺度s之間的中心圍繞差值產生特征圖。模擬靈長類動物的中心圍繞機制，所有類型的敏感性是在六個I(c,s)圖（六尺度）中同時計算的：

I(c,s)=|I(c)ΘI(s)| c∈（2,3,4）,s=s+δ,δ∈（3,4）

第二組特征圖集：模擬皮層中的“顏色雙競爭” 系統表示：在接受野中心，神經元被一種顏色激活而禁止另外一種顏色，而在周圍區域則是相反的。在主視覺皮層中，紅/綠，綠/紅，藍/黃，黃/藍顏色對都存在這種空間和色彩競爭關系。因此，產生RG(c,s)和BY(c,s)特征圖來反映雙競爭關系。

RG(c,s)=|(R(c)-G(c))Θ(G(s)-R(s))|

BY(c,s)=|(B(c)-Y(c))Θ(Y(s)-B(s))|

第三組特征圖集：采用方向Gabor金字塔得到局部方向信息，采用4角度和6尺度來表示角度和方向。最后得到方向特征圖：O(c,s,θ)=|O(c,θ)ΘO(s,θ)|;

總體來說，計算出來了42個特征圖：6個亮度圖，12個顏色圖和24個方向圖。

3、顯著性圖

顯著性圖的目的是通過顯著性的空間分布來表示醒目度（conspicuity-saliency）或顯著度：在視野中每個位置用一個定量向量表示，引導注意位置的選擇。通過一個動態神經網絡模型，特征圖的組合可以向顯著性圖提供BU輸入。對不同的的特征圖表示了不可比較的模態的先驗信息，有不同的動態范圍和提取機制。42個特征圖結合時，在一些特征圖中表現非常強的顯著目標可能被其它更多的特征圖的噪聲或不顯著的目標所掩蓋。在缺少TD監督的情況下，采用一個歸一化操作算子N(.)，整體提升那些有部分強刺激峰值（醒目位置）的特征圖，而整體抑制那些包含大量可比峰值響應。

歸一化計算方法：

①、將所有圖的取值固定為[0,M]，消除依賴於模態的幅值差異；

②、計算圖中最大值M和其他所有局部極值的平均值m；

③、整幅圖像乘以（M-m）* （M-m）。

歸一化算子模擬了皮層旁側禁止機制：通過特定的生理連接，鄰域中相似的特征互相禁止。通過跨尺度相加，特征圖被結合成3個醒目度圖（conspicuity maps），I表示灰度，C表示顏色，O表示方向，三個醒目性圖經過歸一化后，求和，作為顯著性圖的最終輸入S。任何時候，顯著性圖（SM）的最大值定義了最顯著的圖像位置，為注意焦點（FOA）定向

4、關注焦點的定位與轉移（這部分沒仔細了解，只是引用了其他學者的論文，如果有更詳細的解答，不妨大家一起分享）

顯著圖是對場景中突出特征的反映，關注焦點在顯著圖的指導下定位到圖像中的顯著位置、並按照顯著性降序在圖像中進行跳轉。通過勝者為王（Winner-take-all，WTA）神經競爭網絡，能夠使關注焦點自動選擇定位到最顯著特征所在的位置。當出現若干顯著度相同的顯著點時，關注焦點將依照Gestalt原則中的“臨近原則”轉向距離上一次關注焦點最近的顯著位置。另外，模型引入禁止返回（Inhibition of return，IOR）的神經機制來避免重復關注同一顯著位置，使得關注焦點可以順利從最顯著轉移到次顯著位置。禁止返回機制從工程應用角度來講是合理的，可以節省計算資源和時間；但是從心理學角度出發，禁止返回的神經機制持續時間不會很長，可能注意力在人腦的控制下會重新返回已經關注過的區域，這與任務的復雜程度、場景理解程度有關。以下為Itti模型對一張自然場景圖像進行視覺注意的過程。