(不斷更新)關於顯著性檢測的調研-Salient Object Detection: A Survey


《Salient Object Detection: A Survey》作者:Ali Borji、Ming-Ming Cheng、Huaizu Jiang and Jia Li

基本按照文章中文獻出現的順序。

 

一、L. Itti, C. Koch, and E. Niebur, “A model of saliency-based visual attention for rapid scene analysis,” IEEE TPAMI, 1998.

一個用於快速場景分析的基於顯著性的視覺注意模型【1】。目前(2018-07-06),這篇short paper被引量9000+,有點嚇人O(∩_∩)O哈哈~

這是一個早期的顯著性檢測模型,它首次通過認知心理學(psychology)、神經科學、計算機視覺等多學科,掀起了第一波浪潮。這個模型是一個基於中心包圍(center-surrounded)機制的自底向上的通用計算框架和心理學方法的較早期的實現。這篇文章展示了一個可以檢測場景中空間不連續性的檢測模型。

論文的提出主要是受到靈長類動物早期視覺系統的神經結構和行為所啟發而產生了視覺注意系統。靈長類動物具有很強的實時處理復雜場景的能力,視覺信息進行深入的處理之前,對所收集到的感覺信息進行選擇,這些選擇可能減少場景理解的復雜性,這個選擇過程在一個空間有限的視野區域即所謂的注意焦點(focus of attention, FOA)中完成,它搜索場景的方式可以是快速、自下而上(bottom-up,BU)、顯著驅動和任務獨立的方式,也可以是慢速、自上而下(top-down,TD)、意志控制和任務相關的方式。注意模型包括“動態路由”模型,在此模型中,通過皮層視覺繼承,從一個小的視野區域中得到的信息可以不斷前行。通過皮層連接的動態修正或在TD和BU的控制下對活躍區建立特定的瞬時模式,來選擇注意區域。

這篇文章所使用的模型建立在由Koch和Ullman所提出的生物模型和其他幾個模型。它和所謂的特征整合模型相關,解釋了人類視覺搜索策略。視覺輸入首先被分為一系列特征地形圖。然后在每個圖中,不同的空間位置通過競爭獲取顯著性,只有從周圍脫穎而出的位置才能保留。所有的特征圖以純粹的BU方式輸入到高級的顯著性圖,它對整個視覺場景的局部醒目度進行地形編碼。在靈長類動物中,人們相信這種圖存在於后頂葉皮層(posterior parietal cortex)中,同時也存在於枕核丘腦(pulvinar nuclei ofthalamus)中。模型的顯著性圖被認為是產生注意轉移的內部動力。因此這個模型表示了BU顯著性可以引導注意轉移,不需要TD。這個模型可以進行並行處理,提高運算速度,而且可以根據特征的重要性,為特征加上權值,特征越重要,權值越大。

上圖為整個模型的結構圖,首先輸入一張彩色圖片,采用高斯金字塔對該圖片進行下采樣,生成9張尺度圖,其中尺度0表示該尺度圖像與原圖像的像素面積比例是1:1,尺度8表示該尺度圖像與源圖像面積為1:256。“Center-surround” difference operations,即中央周邊差操作,是根據人眼生理結構設計的。人眼感受野對於視覺信息輸入中反差大的特征反應強烈,例如中央亮周邊暗的情況、中央是綠色周邊是紅色的情況等,這都屬於反差較大的視覺信息。在高斯金字塔中,尺度較大的圖像細節信息較多,而尺度較小的圖像由於高斯平滑和減抽樣操作使得其更能反映出局部的圖像背景信息,因而將尺度較大的圖像和尺度較小的圖像進行跨尺度減操作(across-scale),能得到局部中心和周邊背景信息的反差信息。跨尺度減的具體算法如下:通過將代表周邊背景信息的較小尺度的圖像進行線性插值,使之與代表中心信息的較大尺度的圖像具有相同大小,然后進行點對點的減操作,即中央周邊差操作,這樣的跨尺度減操作使用符號Θ表示。對每個特征通道的高斯金字塔進行中央周邊差操作,依次檢測圖像中的特征不聯系性,即中心和周邊背景信息反差對比強烈的區域,很好地模仿了視網膜上探測突出目標的生理機制。在模型中,代表中心信息的圖像尺度c取c∈{2,3,4},代表周邊背景信息的圖像尺度s取s=c+δ,其中δ∈{3,4},從而在每個特征通道里可以產生6個尺度對,即{2-5,2-6,3-6,3-7,4-7,4-8},在每個特征通道可以產生6張中央周邊差結果圖,所以7個通道共有42張中央周邊差圖,中央周邊差結果圖在該模型中被稱為特征圖(Feature Map)。

早期視覺特征提取

①、亮度提取,用r,g,b分別表示圖像紅、綠、藍三個通道的值,因此亮度I可以表示為I=(r+g+b)/3,由於輸入圖片是9個尺度的高斯金字塔圖片,所以I也對應於9個尺度高斯金子塔亮度圖。

②、顏色提取,r,g,b通道采用I進行歸一化以從亮度中解耦色調。產生了四個寬調諧(broadly-tuned)的顏色通道,從這些顏色通道中產生四個高斯金字塔R,G,B,Y。

R=r-(g+b)/2,G=g-(r+b)/2,B=b-(r+g)/2,Y=(r+g)/2-|r-g|/2-b,如果為負數則設為0。

③、方向特征,方向特征主要是使用Gabor濾波器對圖像的亮度特征在0°,45°,90°,135°四個主要方向上進行濾波得到的。因此,Gabor濾波器可以很好地模擬人類視皮層簡單細胞的信號處理特點,其結果直接體現了圖像局部方向特征的信息。在Gabor濾波器某個方向的濾波結果中,給定區域的能量可以反映該區域灰度圖在該方向的特征是否強烈,即反映了區域內的該方向的直線或者規則紋理的朝向特征是否明顯。因此方向特征的提取可以直接使用幾個方向的Gabor濾波器進行濾波獲得。

第一組特征圖集:中心細尺度c和周圍粗尺度s之間的中心圍繞差值產生特征圖。模擬靈長類動物的中心圍繞機制,所有類型的敏感性是在六個I(c,s)圖(六尺度)中同時計算的:

I(c,s)=|I(c)ΘI(s)| c∈(2,3,4),s=s+δ,δ∈(3,4)

第二組特征圖集:模擬皮層中的“顏色雙競爭” 系統表示:在接受野中心,神經元被一種顏色激活而禁止另外一種顏色,而在周圍區域則是相反的。在主視覺皮層中,紅/綠,綠/紅,藍/黃,黃/藍顏色對都存在這種空間和色彩競爭關系。因此,產生RG(c,s)和BY(c,s)特征圖來反映雙競爭關系。

RG(c,s)=|(R(c)-G(c))Θ(G(s)-R(s))|

BY(c,s)=|(B(c)-Y(c))Θ(Y(s)-B(s))|

第三組特征圖集:采用方向Gabor金字塔得到局部方向信息,采用4角度和6尺度來表示角度和方向。最后得到方向特征圖:O(c,s,θ)=|O(c,θ)ΘO(s,θ)| 

總體來說,計算出來了42個特征圖:6個亮度圖,12個顏色圖和24個方向圖。

顯著性圖

        顯著性圖的目的是通過顯著性的空間分布來表示醒目度(conspicuity-saliency)或顯著度:在視野中每個位置用一個定量向量表示,引導注意位置的選擇。通過一個動態神經網絡模型,特征圖的組合可以向顯著性圖提供BU輸入。對不同的的特征圖表示了不可比較的模態的先驗信息,有不同的動態范圍和提取機制。42個特征圖結合時,在一些特征圖中表現非常強的顯著目標可能被其它更多的特征圖的噪聲或不顯著的目標所掩蓋。在缺少TD監督的情況下,采用一個歸一化操作算子N(.),整體提升那些有部分強刺激峰值(醒目位置)的特征圖,而整體抑制那些包含大量可比峰值響應。
歸一化計算方法:
①、將所有圖的取值固定為[0,M],消除依賴於模態的幅值差異;
②、計算圖中最大值M和其他所有局部極值的平均值m;
③、整幅圖像乘以(M-m)* (M-m)。
歸一化算子模擬了皮層旁側禁止機制:通過特定的生理連接,鄰域中相似的特征互相禁止。通過跨尺度相加,特征圖被結合成3個醒目度圖(conspicuity maps),I表示灰度,C表示顏色,O表示方向,三個醒目性圖經過歸一化后,求和,作為顯著性圖的最終輸入S。任何時候,顯著性圖(SM)的最大值定義了最顯著的圖像位置,為注意焦點(FOA)定向。

總結
模型對噪聲的魯棒性很好,特別是如果噪聲的特性(如顏色)不直接壞目標的主要特征的時候。該模型能復制人的處理大量彈出任務能力。當目標以它自己的獨特方向,顏色,亮度或尺寸和大量的周圍干擾物不同時,不管干擾物的數量如何,目標總是第一個被注意的。
優缺點:
①、本模型能以良好的性能處理復雜自然場景。驗證了靈長類動物從早期視覺處理輸入所得到的獨特顯著性圖能引導BU的注意的觀點。
②、這種方法能進行大規模並行實現,不僅是早期特征提取階段的大量運算,而且對注意聚焦系統也可以。
③、只有物體特征在至少一個特征圖中顯性表示才能產生彈出效應,即快速檢測獨立於干擾物的數量。
④、如果不對預注意特征提取過程進行修改,此模型不能檢測聯合特征。盡管當目標以它自己的獨特方向,顏色,亮度或尺寸和周圍干擾物不同時,目標能被迅速檢測到,它不能檢測未實現的特征類型的目標顯著性(如T型連接或線段終點,因為特定的神經元的存在還是有爭議的)。
⑤、為了簡單起見,也沒有在特征圖內實現任何循環機制,因此不能產生輪廓競爭和封閉現象,這些現象對某類人類彈出任務很重要。
⑥、模型沒有包括大細胞運動通道。
⑦、歸一化處理提供了在任何情況下計算顯著性的通用機制。它比以前提出的迭代方法更快更簡單。
總之,論文提出了一個簡單的顯著性驅動的視覺注意焦點計算模型。其基於生物學發現而構建的結構能復制靈長類動物視覺系統的許多特性。 該論文是圖像顯著性檢測的基礎,可以說是 開山之作,對后續顯著性論文的理解起到很大的作用。

感謝原文博主的解析,詳見https://blog.csdn.net/chenjiazhou12/article/details/39456589

 

二、 接下來的計算研究開始用顯著圖來進行固定預測(fixation prediction)以及理解人類的視覺注意機制。

第二波浪潮來自於三篇文章【7】【8】【9】,它們將顯著性檢測問題定義為二進制分割問題。它們也是《Salient Object Detection: A Survey》一文所主要關注的。這三篇(注意觀察前兩篇的版本)文章分別是:

1、T. Liu, J. Sun, N. Zheng, X. Tang, and H.-Y. Shum, “Learning to detect a salient object,” in CVPR, 2007, pp. 1–8.

這篇文章將顯著性檢測定義為圖像分割問題,它將顯著性目標從圖像背景中分隔出來。

提出了一系列新穎的特征,包括多尺度對比度,中心環繞直方圖和顏色空間分布,以在本地,區域和全局描述顯著性目標。

引入了條件隨機場用於高效地將這些新穎的特征組合起來,以服務於后續的顯著性目標檢測。

創建了一個大型的精心標注的圖像數據庫。

鏈接附上:https://ivrl.epfl.ch/achanta/SalientRegionDetection/SalientRegionDetection.html

2、T. Liu, Z. Yuan, J. Sun, J. Wang, N. Zheng, X. Tang, and H.-Y. Shum, “Learning to detect a salient object,” IEEE TPAMI, vol. 33, no. 2, pp. 353–367, 2011.

3、R. Achanta, F. Estrada, P. Wils, and S. Süsstrunk, “Salient region detection and segmentation,” in Comp. Vis. Sys., 2008.

該文章提出了一種使用亮度和顏色的低級特征來確定圖像中的顯著性區域的新方法。該方法快速、易於實現,並且能夠生成和原始輸入圖像尺寸以及分辨率一致的顯著圖。
三、那么,什么是顯著性目標檢測呢?

在計算機視覺領域,它包括兩個階段:

1)首先檢測到最顯著的目標;

2)然后准確地分割出該目標的邊界。



 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM