視覺顯著性檢測(Visual saliency detection)指通過智能算法模擬人的視覺特點,提取圖像中的顯著區域(即人類感興趣的區域)。
視覺注意機制(Visual Attention Mechanism,VA),即面對一個場景時,人類自動地對感興趣區域進行處理而選擇性地忽略不感興趣區域,這些人們感興趣區域被稱之為顯著性區域。如圖所示,當看到這幅圖像時,圖中的四個人最能引起人的注意。

人類視覺注意機制有兩種策略:
1)自底而上基於數據驅動的注意機制
僅受感知數據的驅動,將人的視點指導到場景中的顯著區域;通常與周圍具有較強對比度或與周圍有明顯不同的區域吸引自下而上的注意。利用圖像的顏色、亮度、邊緣等特征表示,判斷目標區域和它周圍像素的差異,進而計算圖像區域的顯著性。下圖為自下而上的注意,第1列淺灰色條和第 2 列的豎直擺放的條形能立即引起人的注意。

2)自上而下基於任務驅動的目標的注意機制
由人的“認知因素” 決定, 比如知識、預期和當前的目標.對圖像的特定特征來計算圖像區域的顯著性。下圖為自上而下的注意,監控任務下, 場景中的人體能引起注意。

在機器人和計算機視覺領域, 研究者們對視覺注意機制的興趣與日俱增, 因為該機制可從大量的視覺數據中確定出最相關的部分。因此,近年來研究者們在特征綜合理論和Guided search等注意的心理學模型基礎上, 提出了大量的可計算的注意力選擇模型,以用於模擬人類的視覺注意機制。這些模型包括: 基於認知、貝葉斯、決策論、信息論、圖模型、頻域分析和基於模式分類的等人視覺注意模型。
一、認知注意模型
Itti於1998年提出基於顯著性的視覺注意模型,並在2001年度Nature上對該模型理論作了進一步的完善。Itti的顯著性模型最具代表性,該模型已經成為了自下而上視覺注意模型的標准。其基本結構如下圖所示。

對於一幅輸入圖像,該模型提取初級視覺特征:顏色(RGBY)、亮度和方位、在多種尺度下使用中央周邊(Center-surround)操作產生體現顯著性度量的特征圖,將這些特征圖合並得到最終的顯著圖(Saliency map)后,利用生物學中贏者取全(Winner-take-all)的競爭機制得到圖像中最顯著的空間位置, 用來向導注意位置的選取,最后采用返回抑制 (Inhibition of return) 的方法來完成注意焦點的轉移。
二、決策論注意模型
決策論的觀點認為,不斷進化的感知系統能產生關於周圍環境的、在決策論意義下的最優決策。要點在於視覺注意應被與當前任務有關的最優性所驅動。決策論注意模型既能表達自下而上的注意,也能表達自上而下的注意。並已經在計算機視覺中得到了成功的應用,如分類和注意定位預測,均取得很高的准確率。
三、頻域分析注意模型
基於頻譜分析的顯著性模型,形式簡潔,易於解釋和實現,並且在注意焦點預測和顯著區域檢測方面取得了很大的成功,由於基於快速傅里葉變換實現,能夠滿足實時要求,和iNVT類似的模型相比,運算速度可提高近10倍。美中不足的是, 其生物合理性不是非常清楚。
四、圖論注意模型
圖模型是一個使用圖對隨機變量之間的條件依賴結構進行表示的概率框架。這種類型的注意模型,把眼動看作一個時間序列。由於有大量的隱變量影響眼球運動的產生,因此,該類注意模型使用了隱馬爾科夫模型、動態貝葉斯網和條件隨機場等方法。圖模型可以對復雜的注意機制建模,因此能取得較好的預測能力,缺點在於模型的高復雜度,尤其涉及訓練和可讀性時。


