《Salient Object Detection: A Survey》作者:Ali Borji、Ming-Ming Cheng、Huaizu Jiang and Jia Li
基本按照文章中文獻出現的順序。
一、L. Itti, C. Koch, and E. Niebur, “A model of saliency-based visual attention for rapid scene analysis,” IEEE TPAMI, 1998.
一個用於快速場景分析的基於顯著性的視覺注意模型【1】。目前(2018-07-06),這篇short paper被引量9000+,有點嚇人O(∩_∩)O哈哈~
這是一個早期的顯著性檢測模型,它首次通過認知心理學(psychology)、神經科學、計算機視覺等多學科,掀起了第一波浪潮。這個模型是一個基於中心包圍(center-surrounded)機制的自底向上的通用計算框架和心理學方法的較早期的實現。這篇文章展示了一個可以檢測場景中空間不連續性的檢測模型。
論文的提出主要是受到靈長類動物早期視覺系統的神經結構和行為所啟發而產生了視覺注意系統。靈長類動物具有很強的實時處理復雜場景的能力,視覺信息進行深入的處理之前,對所收集到的感覺信息進行選擇,這些選擇可能減少場景理解的復雜性,這個選擇過程在一個空間有限的視野區域即所謂的注意焦點(focus of attention, FOA)中完成,它搜索場景的方式可以是快速、自下而上(bottom-up,BU)、顯著驅動和任務獨立的方式,也可以是慢速、自上而下(top-down,TD)、意志控制和任務相關的方式。注意模型包括“動態路由”模型,在此模型中,通過皮層視覺繼承,從一個小的視野區域中得到的信息可以不斷前行。通過皮層連接的動態修正或在TD和BU的控制下對活躍區建立特定的瞬時模式,來選擇注意區域。
這篇文章所使用的模型建立在由Koch和Ullman所提出的生物模型和其他幾個模型。它和所謂的特征整合模型相關,解釋了人類視覺搜索策略。視覺輸入首先被分為一系列特征地形圖。然后在每個圖中,不同的空間位置通過競爭獲取顯著性,只有從周圍脫穎而出的位置才能保留。所有的特征圖以純粹的BU方式輸入到高級的顯著性圖,它對整個視覺場景的局部醒目度進行地形編碼。在靈長類動物中,人們相信這種圖存在於后頂葉皮層(posterior parietal cortex)中,同時也存在於枕核丘腦(pulvinar nuclei ofthalamus)中。模型的顯著性圖被認為是產生注意轉移的內部動力。因此這個模型表示了BU顯著性可以引導注意轉移,不需要TD。這個模型可以進行並行處理,提高運算速度,而且可以根據特征的重要性,為特征加上權值,特征越重要,權值越大。

上圖為整個模型的結構圖,首先輸入一張彩色圖片,采用高斯金字塔對該圖片進行下采樣,生成9張尺度圖,其中尺度0表示該尺度圖像與原圖像的像素面積比例是1:1,尺度8表示該尺度圖像與源圖像面積為1:256。“Center-surround” difference operations,即中央周邊差操作,是根據人眼生理結構設計的。人眼感受野對於視覺信息輸入中反差大的特征反應強烈,例如中央亮周邊暗的情況、中央是綠色周邊是紅色的情況等,這都屬於反差較大的視覺信息。在高斯金字塔中,尺度較大的圖像細節信息較多,而尺度較小的圖像由於高斯平滑和減抽樣操作使得其更能反映出局部的圖像背景信息,因而將尺度較大的圖像和尺度較小的圖像進行跨尺度減操作(across-scale),能得到局部中心和周邊背景信息的反差信息。跨尺度減的具體算法如下:通過將代表周邊背景信息的較小尺度的圖像進行線性插值,使之與代表中心信息的較大尺度的圖像具有相同大小,然后進行點對點的減操作,即中央周邊差操作,這樣的跨尺度減操作使用符號Θ表示。對每個特征通道的高斯金字塔進行中央周邊差操作,依次檢測圖像中的特征不聯系性,即中心和周邊背景信息反差對比強烈的區域,很好地模仿了視網膜上探測突出目標的生理機制。在模型中,代表中心信息的圖像尺度c取c∈{2,3,4},代表周邊背景信息的圖像尺度s取s=c+δ,其中δ∈{3,4},從而在每個特征通道里可以產生6個尺度對,即{2-5,2-6,3-6,3-7,4-7,4-8},在每個特征通道可以產生6張中央周邊差結果圖,所以7個通道共有42張中央周邊差圖,中央周邊差結果圖在該模型中被稱為特征圖(Feature Map)。
早期視覺特征提取
①、亮度提取,用r,g,b分別表示圖像紅、綠、藍三個通道的值,因此亮度I可以表示為I=(r+g+b)/3,由於輸入圖片是9個尺度的高斯金字塔圖片,所以I也對應於9個尺度高斯金子塔亮度圖。
②、顏色提取,r,g,b通道采用I進行歸一化以從亮度中解耦色調。產生了四個寬調諧(broadly-tuned)的顏色通道,從這些顏色通道中產生四個高斯金字塔R,G,B,Y。
R=r-(g+b)/2,G=g-(r+b)/2,B=b-(r+g)/2,Y=(r+g)/2-|r-g|/2-b,如果為負數則設為0。
③、方向特征,方向特征主要是使用Gabor濾波器對圖像的亮度特征在0°,45°,90°,135°四個主要方向上進行濾波得到的。因此,Gabor濾波器可以很好地模擬人類視皮層簡單細胞的信號處理特點,其結果直接體現了圖像局部方向特征的信息。在Gabor濾波器某個方向的濾波結果中,給定區域的能量可以反映該區域灰度圖在該方向的特征是否強烈,即反映了區域內的該方向的直線或者規則紋理的朝向特征是否明顯。因此方向特征的提取可以直接使用幾個方向的Gabor濾波器進行濾波獲得。
I(c,s)=|I(c)ΘI(s)| c∈(2,3,4),s=s+δ,δ∈(3,4)
RG(c,s)=|(R(c)-G(c))Θ(G(s)-R(s))|
BY(c,s)=|(B(c)-Y(c))Θ(Y(s)-B(s))|
第三組特征圖集:采用方向Gabor金字塔得到局部方向信息,采用4角度和6尺度來表示角度和方向。最后得到方向特征圖:O(c,s,θ)=|O(c,θ)ΘO(s,θ)|
顯著性圖
感謝原文博主的解析,詳見https://blog.csdn.net/chenjiazhou12/article/details/39456589
二、 接下來的計算研究開始用顯著圖來進行固定預測(fixation prediction)以及理解人類的視覺注意機制。
第二波浪潮來自於三篇文章【7】【8】【9】,它們將顯著性檢測問題定義為二進制分割問題。它們也是《Salient Object Detection: A Survey》一文所主要關注的。這三篇(注意觀察前兩篇的版本)文章分別是:
1、T. Liu, J. Sun, N. Zheng, X. Tang, and H.-Y. Shum, “Learning to detect a salient object,” in CVPR, 2007, pp. 1–8.
這篇文章將顯著性檢測定義為圖像分割問題,它將顯著性目標從圖像背景中分隔出來。
提出了一系列新穎的特征,包括多尺度對比度,中心環繞直方圖和顏色空間分布,以在本地,區域和全局描述顯著性目標。
引入了條件隨機場用於高效地將這些新穎的特征組合起來,以服務於后續的顯著性目標檢測。
創建了一個大型的精心標注的圖像數據庫。
鏈接附上:https://ivrl.epfl.ch/achanta/SalientRegionDetection/SalientRegionDetection.html
2、T. Liu, Z. Yuan, J. Sun, J. Wang, N. Zheng, X. Tang, and H.-Y. Shum, “Learning to detect a salient object,” IEEE TPAMI, vol. 33, no. 2, pp. 353–367, 2011.
3、R. Achanta, F. Estrada, P. Wils, and S. Süsstrunk, “Salient region detection and segmentation,” in Comp. Vis. Sys., 2008.
該文章提出了一種使用亮度和顏色的低級特征來確定圖像中的顯著性區域的新方法。該方法快速、易於實現,並且能夠生成和原始輸入圖像尺寸以及分辨率一致的顯著圖。
三、那么,什么是顯著性目標檢測呢?
在計算機視覺領域,它包括兩個階段:
1)首先檢測到最顯著的目標;
2)然后准確地分割出該目標的邊界。
