1.Mingming Cheng,Global Contrast based Salient Region Detection,CVPR2011
1) HC:基於直方圖對比度的方法,每一個像素的顯著性值是由它與圖像中所有其他像素的顏色差異來確定,得到全分辨率顯著性圖像;
2) RC:基於局部對比度的方法,先將圖像分割成小區域,采用的分割方法是基於圖的分割,基本分割思想是將每個像素點作為無向圖的頂點,兩個像素點之間的不相似度作為邊的權重,要求連接相同區域內的兩個頂點的邊的最大權重要小於連接不同區域的頂點的邊的最小權重,在迭代過程中進行頂點歸納與區域合並,具體參見論文Efficient graph-based image segmentation;每個區域的顯著性值由它與其他所有區域的空間距離和區域像素數加權的顏色差異來確定;空間距離為兩個區域重心的歐氏距離,較遠區域分配較小權值;
3) 細節加速:
① 基於直方圖的加速:將每個顏色通道由256個顏色值量化到12個顏色值后,對輸入圖像計算顏色直方圖,保留高頻顏色,覆蓋95%圖像像素,剩下顏色舍棄,用直方圖中距離最近的顏色代替;
② 顏色空間平滑:減小量化誤差,每個顏色的顯著性值被替換為相似顏色顯著性的加權平均;在RGB空間進行量化,用Lab空間度量距離;
4) 評價:基於HC的理論方法很簡單,根據全局對比度計算顯著度,計算速度快,對於背景較簡單的圖像效果也不錯;RC改變了處理單元,由單個像素到圖像塊,速度較慢,效果並沒有比HC提高很多,個人認為基於圖的分割結果不夠好,導致saliency map不均勻。
2.Yulin Xie,Visual Saliency Detection Based on Bayesian Model,ICIP2011
1) 基本流程:
① 檢測顯著目標的角點:顏色增強Harris角點檢測。對輸入的彩色圖像計算顏色增強矩陣Mboost,用Mboost對輸入圖像進行顏色轉換,計算顏色增強后的圖像的Harris角點能量函數得到能量圖,選取能量圖中能量值最大的幾個點,並剔除圖像邊界附近的點,得到較准確的顯著點;
② 用一個凸包將所有顯著點包圍起來,得到顯著區域的大致位置;
③ 將顯著度計算等價為貝葉斯后驗概率的計算:
a. 先驗概率p(sal):計算每個像素顯著度。將輸入圖像進行超像素分割,計算每個超像素的平均顏色和空間位置;對凸包內外的超像素分別進行K-means聚類,計算凸包內每個cluster與凸包外所有clusters的平均顏色距離,最大距離對應的那個cluster為顯著cluster;其他所有超像素的顯著度由它與顯著cluster內的超像素的空間和顏色距離來確定;將計算的所有顯著值歸一化到[0,1],作為貝葉斯框架的先驗概率。
b. 觀測概率p(x|sal),p(x|bk):分別計算凸包內區域和凸包外區域的Lab顏色直方圖,對於任意像素點x特征值為Lab,分別找凸包內外直方圖相同Lab值對應的各通道bin,計算各通道bin包含像素個數占總像素個數的百分比,三個百分比相乘。即框內外元素在框內和框外直方圖占的比例。
④ 由貝葉斯公式計算最終的saliency map
2) 評價:對於簡單背景,效果也很好。Saliency map的准確度也很大部分取決於凸包的准確性,稍復雜背景會有很多的角點被檢測到,經常會有顯著范圍過大的情況,即false positive。
3.Yun Zhai,Mubarak Shah,Visual Attention Detection in Video Sequences Using Spatiotemporal Cues,ACM2006
1) 系統框架:
① 時域顯著度模型
檢測連續視頻幀中的興趣點,用SIFT建立興趣點之間的對應,根據對應點計算單應性矩陣檢測運動平面,RANSAC算法估計多個單應性矩陣來描述不同的運動模塊;根據單應性矩陣得到投影點與實際點之間的投影誤差計算該像素點的運動對比度,並加入單應性矩陣的跨越區域作為權重調節,避免紋理變化導致顯著點分布不均勻的問題。
② 空域顯著度模型
計算像素級的saliency map:該像素點顏色與圖像中所有其他像素點的color distance map與其他像素點顏色直方圖頻率的乘積;
計算區域級的saliency map:采用區域增長算法,根據前面計算的顯著點對顯著區域進行初始化,以其為中心生成種子區域,通過計算區域邊緣的能量進行迭代擴張,最終得到一個矩形顯著區域。擴展的區域重疊時,采用區域合並技術;
③ 時域空域模型結合
動態結合,運動對比度較大時給時域顯著度模型賦予較大權重,否則給空域顯著度模型賦予較大權重。
2) 評價:基於視頻的顯著度檢測,考慮幀間運動顯著性信息,和圖像自身顯著性,值得進一步探索。速度較快,效果也比較穩定。
4.Xiaohui Shen,Ying Wu,A Unified Approach to Salient Object Detection via Low Rank Matrix Recovery,CVPR2012
1) 基本流程:文章提出了一種新的圖像表示方法,將其表示為一個低秩矩陣(非顯著區域)加上稀疏噪音(顯著區域),再利用Robust PCA技術進行低秩矩陣恢復,得到的噪音就是顯著區域,再根據高層次的先驗知識來幫助修正顯著區域。
2) 圖像矩陣:
① 提取特征:R,G,B,hue,saturation,3尺度下4個方向共12個steerable pyramids響應,3尺度8方向共12個Gabor fileters響應,加起來一共53維。
② 矩陣構造:先利用Mean-shift算法將圖像分割成很多較小的segments再用每個segment中所有特征向量的均值來表示這個segment,從而構造成為矩陣。
③ 特征空間變換:保證特征向量為低秩。
3) 高層先驗融合:位置先驗(基於圖像中心高斯分布),語義先驗(人臉檢測),顏色先驗(暖色更明顯)
4) 評價:對圖像的表示比較新穎,但實驗效果一般,saliency map不均勻,提取特征多,計算量大,低秩矩陣恢復速度也比較慢
6.Ali Borji,Boosting Bottom-up and Top-down Visual Features for Saliency Estimation,CVPR2012
1) 主要貢獻:
① 本文的主要出發點是一個貝葉斯公式的推導,在具有特征f的某位置x是salient的概率p是等式的左邊,有如下:
此處假設f與x相互獨立,且先驗概率p(s)相同,所以可以得到正相關最右。又有:
即與圖片中心點的歐式距離相關,所以本文主要研究的是特征點和salient的對應關系。
② 將bottom-up和top-down聯合,底層特征有方向,顏色,強度,顏色通道直方圖及概率,金字塔模型,現有的底層顯著圖例如GBVS,Torralba模型,AWS模型;高層特征包括水平線檢測,人車檢測,人臉檢測等。底層和高層加起來,每個pixel就對應一個34維的feature。
③ 測試了多種分類器對於顯著圖計算的貢獻,采用online learning,先將feature matrix歸一化,使其平均數是0,標准差是1,然后建立一個等大小的label map,每個點取值+1/-1,人眼觀測的預測結果,top 20%標注+1,bottom 40% 標注-1。他將數據集分為N組,然后使用leave-one-out的方式進行訓練和測試。測試分類器有回歸分類器(regression),線性核的SVM和AdaBoost非線性分類器。實驗表明Adaboost效果最好。
④ 評估指標:AUC值為ROC曲線與x軸之間距離的積分;NSS歸一化掃描路徑的顯着性,描述saliency可以描述fixation的程度;線性相關系數CC表示saliency map和人眼關注map之間的線性關系,計算協方差。
2) 評價:論文內容上新意不大,底層特征與高層知識的結合,倒是提供了不少特征提取參考,以及各種分類器和評估准則的測試;沒有進行代碼測試,覺得計算量應該很大。
7.Federico Perazzi,Philipp Krahenbuhl,Saliency Filters: Contrast Based Filtering for Salient Region Detection
1) 基本思想:顯著性一直以來都被認為應該是一個濾波器,該文作者想到了將其使用濾波器的方法進行加速。這篇文章主要是對局部和全局兩種顯著特征的公式進行了分析,提出了一種可以再線性時間內計算的方法。
2) 方法流程:
① 圖像分割:采用略微修改的超像素分割,根據CIElab空間的測地線圖像距離進行K-means聚類,產生大體上均勻尺寸,並且可以保持顏色邊界的超像素分割。
② 顏色獨立性:
其中的權重與超像素空間位置的距離有關,如果這個值給予長距離很低的權重,這個顏色獨立性就類似於中央周邊的對比度,即距離遠的像素對其顯著性貢獻較低;如果這個權重為常數,這個顏色權重就類似於Mingming Cheng論文里面的區域對比度。
這個公式也可以寫成:
第一項的Σ結果是1,第二和第三項都可以看做是以ω為核的濾波器,分別對cj 和cj2濾波。本文將這個核寫成了高斯的形式,並且借助Adams提出的permutohedral lattice embedding 濾波器來實現線性時間的計算。
③ 空間顏色分布:
權重是顏色的差距,前面是空間距離。根據ω(ci,cj)定義,顏色越接近近權重越大,即距離遠但顏色相近的像素分布值大,和前一個特征剛好是相反,這個特征可以表示某種顏色在空間分布的廣度。例如某種顏色分散在圖像中,但是面積都很小,那么第一個特征計算出來這個顏色的獨立性就比較高,但是第二個特征會告訴你這個顏色的分布很廣,並不顯著。
通過類似的推導,這個公式也可以寫成高斯濾波的形式,借助Adams提出的permutohedral lattice embedding 濾波器來實現線性時間的計算,具體參考論文Fast High-Dimensional Filtering Using thePermutohedral Lattice。
④ 顯著性融合:
由於空間顏色分布的區分度更大,因此作者將其放在了指數的位置,並加了一個權重調節。Di越大即顏色分布越廣,對應顯著性值越小;Ui越大對應顏色獨立性越高,對應顯著性值越大。
最后,特征被從超像素級映射到像素級。每個像素的顯著性是通過其所在超像素以及周圍的超像素進行高斯線性加權,權重取決於和顏色,位置的距離。最終的歸一化也很重要,要求顯著圖至少包含10%的顯著像素,這種歸一化方式也會提升算法最終的評價指標。
3) 論文評價:考慮到顏色自身獨立性與顏色分布對顯著度的貢獻結合,算法均在時域進行,並采用高斯濾波加速,得到很不錯的效果。實際測試結果saliency map較均勻,但公布的代碼缺少一些實驗細節,沒有論文的公布結果好。