這篇文章主要介紹深度學習下的顯著目標檢測算法及數據集,對比各類算法探究形成綜述。
原文地址:https://arxiv.org/pdf/1904.09146.pdf 若有個人誤區及翻譯錯誤,懇請及時評論指正。
目錄
前言
作為一個重要的計算機視覺研究問題,近年顯著目標檢測(Salient Object Detection,SOD)吸引了越來越多研究者的關注。意料之中的是,顯著目標檢測的最新研究已經由深度學習方法所主導(deep SOD),多百篇該領域文章的發表予以了印證。為了促進對深度顯著目標檢測的理解,本文提供一個全面詳盡的調查,涵蓋多個算法的分類以及一些未解決的開放問題。首先,我們從不同的角度審視了SOD算法,從網絡架構,監督級別,學習范式以及針對對象/實例的檢測來分類。之后,我們總結了現有的SOD評估數據集及評估標准。然后,我們根據他人已有的工作編制了一個覆蓋主流SOD方法的benchmark,提供詳細的結果分析。並且我們研究了不同SOD算法在各類數據集上的表現。最后,我們討論了幾個SOD未解決的問題的挑戰,並且指出今后的潛在研究方向。所有的顯著性預測圖、構建的帶注釋的數據集,以及評估方法的代碼都在https://github.com/wenguanwang/SODsurvey獲取。
第一章:介紹
顯著性檢測通常分為眼動點檢測和顯著目標檢測。顯著目標檢測(SOD)的目的是突出圖像中的顯著目標區域。而顯著性檢測的另一個任務凝視點檢測(fixation prediction)則起源於認知和心理學研究,與眼動點檢測不同的是,顯著目標檢測更多的受不同領域的應用驅動:比如,在CV研究中,SOD可以應用於圖像理解,圖像描述,目標檢測,無監督的視頻目標分割,語義分割,行人重識別,等等;在計算機圖形學中,SOD可以應用於非真實性渲染,圖像自動裁剪,圖像重定位,視頻摘要等;在機器人領域中,可用於人機交互和目標發現等等。
得益於深度學習技術,顯著目標檢測得到飛速發展。從2015年首次被介紹,深度的SOD算法一直有着比傳統算法更卓越的表現,並且在各類基准測試排行中霸榜。
第一節:History and Scope
與計算機視覺的其他任務相比,SOD的歷史相對短暫。傳統SOD模型主要依賴於低級特征並且受到如顏色對比、背景先驗的啟發。為了獲得顯著對象和清晰的對象區域,區域生成、超像素、OP算法(Object Proposals)經常集成於過分割過程。如下圖Fig.1所示。
2015年以來,各類深度學習SOD相繼提出。早期的SOD深度模型主要利用多層感知機分類器來預測從圖像的每個處理單元提取的深度特征的顯著性得分。之后,全卷積網絡(FCN)成為了更主流的SOD架構。簡要的SOD發展年表圖如Fig.1。本文主要涵蓋過去5年的研究進展,也為了完整性的需要,還包括了一些早期的相關工作。需要注意的是,本文主要注重單圖像級別的顯著性檢測,將實例級SOD、RGB-D SOD、co-saliency detection、video SOD、FP、social gaze prediction 當做其它topic。
第二節:Related Previous Reviews and Surveys
Table 1 列出了已有綜述。在文章2中,Borji等人審視了2015年之前的SOD方法,因此不涉及深度學習解決方案。最近,如文章4,綜述研究已經擴展到傳統非深度學習方法與深度學習方法的研究。文章5中,對協同分割(co-segmentation)的方法進行了分析,這是視覺顯著性的一個分支,可以檢測並分割來自多個相關圖像的顯著位置。文章6對幾個SOD的擴展任務,如RGB-D SOD、co-salency detection 和 視頻SOD進行了綜述。文章7研究了目標檢測的幾個子方向,並總結了目標檢測,顯著目標檢測,指定物品檢測(COD)等研究。在文章1和文章8中,還是Borji等人總結了凝聚點檢測的模型,並分析了幾個特殊問題。文章3主要側重於在不同應用領域內對視覺顯著性(包括SOD和FP)進行分類。
不同於之前的綜述文章,我們的文章系統、全面的對深度學習方法的SOD算法進行分析。特別地,我們幾種基於分類法(based on proposed taxonomies)的深度學習方法,通過屬性評估深入分析輸入擾動的影響,討論了深度SOD模型的對對抗攻擊的魯棒性,概括了現有數據集,為重要的開放性問題,挑戰和未來方向提供見解,以促進讀者對深度SOD模型的理解,並激發對諸如對SOD的對抗性攻擊等公開問題的研究。
第三節:Our Contributions
本文的主要貢獻可以概括為如下幾點:
1)多角度(網絡結構、監督級別、學習方式、對象/實例級)評價不同的深度SOD模型。
2)提出基於屬性的深度SOD模型評估方法
3)討論了輸入擾動的影響
4)首次探討對SOD模型的對抗性攻擊分析,深度神經網絡(DNNs)一些典型任務如識別已被證明易受視覺上難以察覺的對抗性攻擊,這種攻擊對深度SOD模型的影響尚未被探索。就此我們提出了精心設計的對抗性問題的baseline attack及評估,可作為未來深度SOD模型魯棒性及可遷移性研究的baseline。
5)因為現有數據集都會包含一些偏差,我們使用了代表性的深度SOD算法對現有的SOD數據集進行跨數據集泛化研究。
6)對公開問題和未來的研究方向進行討論。
第二章:深度顯著目標檢測模型
在分析最近所有的深度SOD模型前,我們將顯著目標檢測的任務定義如下:即將 input image(通常為三通道圖像,經過SOD算法 F 后,獲得二值顯著目標,即binary salient object mask。那么在接下來的部分,我們將以下從4種分類方式介紹不同類別的深度SOD算法:1、經典網絡結構 2、監督級別 3、學習范式 4、對象級和實例級
第一節 具有代表性的SOD網絡結構
(1) 基於多層感知機(MLP)的模型
1)Super-pixel/patch based methods
基於MLP的模型通常為圖像的每個處理單元提取深度特征,以訓練顯著性得分預測的MLP分類器,如圖 Fig.2(a)所示,常用的處理單元包括 super-pixels/patches,或者 generic object proposals。
• MACL(Saliency Detection by Multi-Context Deep Learning) 傳統SOD方法對於背景對比度低並且容易造成視覺混淆的圖像不能產生好的顯著性划分。針對此問題,這篇文章使用兩個路徑從兩個超像素中興不同的窗口提取局部和全局上下文,隨后在同一的混合文本深度學習框架中聯合建模。
• ELD (Deep saliency with encoded low level distance map and high level features) 使用VGG-net提取高級特征,低級特征與圖像的其他部分進行比較生成低級距離圖。然后使用具有多個1×1卷積和ReLU層的卷積神經網絡(CNN)對低級距離圖進行編碼。我們將編碼過的低級距離圖和高級特征連接,並將它們送入全卷積網絡分類器去評估顯著區域。
• SuperCNN(Instance-Level Salient Object Segmentation) 本文提出MSRNet,首次進行顯著實例分割。一共分三個步驟,一是估計顯著性圖,二是檢測顯著對象輪廓,三是識別顯著對象實例,針對前兩個步驟,此文提出多尺度細化網絡,用於生成高質量的顯著區域和顯著輪廓。
2)Object Proposal based Methods
基於OP的模型利用Obejct Proposal(翻譯:OP到底怎么翻譯,目標建議?),或 bounding-boxes(框出目標區域),作為基本處理單元,自然而然的編碼目標信息。
• LEGS(Deep Networks for Saliency Detection via Local Estimation and Global Search) 提出一種局部估計和全局搜索結合的SOD算法。在局部估計階段,我們通過使用深度神經網絡(DNN-L)來檢測局部顯著性,該神經網絡學習局部塊特征以確定每個像素的顯著性值。通過探索高級目標概念,進一步確定估計的局部顯著性圖。在全局搜索階段,將局部顯著性圖與全局對比度和幾何信息一起用作描述一組對象候選區域的全局特征。
• MDF(Visual saliency based on multiscale deep features) 本文利用深度卷積神經網絡(CNN)提取的多尺度特征可以獲得高質量的視覺顯着性模型。為了學習這類顯着性模型,我們引入了一種神經網絡體系結構,它在CNN上有完全連接的層,負責三個不同尺度的特征提取。然后,我們提出了一種改進方法,以提高我們的顯着性結果的空間一致性。最后,為不同層次的圖像分割而計算的多個顯着性映射的聚合可以進一步提高圖像分割的性能,從而產生比單一分割生成的顯着性映射更好的顯着性映射。
• MAP (Unconstrained Salient Object Detection via Proposal Subset Optimization) 我們的目的是在無約束圖像中的檢測顯著性目標。 在無約束的圖像中,顯著目標的數量(如果有的話)因圖像而異,沒有給出。 我們提出了一個顯著性目標檢測系統,直接為輸入圖像輸出一組緊湊的檢測窗口。 我們的系統利用CNN來生成顯著對象的位置建議。 位置建議往往是高度重疊和嘈雜的。 基於最大后驗准則,我們提出了一種新的子集優化框架來從雜亂建議中生成一組緊湊的檢測窗口。
• SSD (A shape-based approach for salient object detection using deep learning) 首先生成區域建議,然后用CNN對每個區域建議分類為具有標准二值圖的預定義形狀類。
(2) 基於全卷積網絡(FCN)的模型
雖然優於以前的非深度學習SOD模型和具有深度學習特征的啟發式模型,但基於MLP的SOD模型無法捕獲顯而易見的空間信息並且非常耗時。受全卷積網絡在語義分割有着優越表現的影響,最新的深度SOD模型將流行的分類模型(例如VGGNet和ResNet)調整為全卷積模型,以直接輸出spatial map而不是分類得分。這樣,深度SOD模型可以在單個前饋傳播過程中受益於端到端的空間顯著表示並有效預測顯著性圖。典型的體系結構可以分為幾類:單流網絡(Single-stream network),多流網絡(Multi-stream network),側融合網絡(Side-fusion network),自下而上/自上而下網絡(Bottomup/top-down network)和分支網絡(Branched network)。
1)Single-stream network 單流網絡是標准的卷積層、池化層、激活層級聯的序貫結構。可在Fig.2(b)中看到。
• RFCN (Saliency detection with recurrent fully convolutional networks) RFCN目前在PASCAL VOC2010分段數據集上進行了預訓練,以學習語義信息,然后調整到SOD數據集以預測前景和背景。 顯著性圖是前景和背景分數的softmax組合。在本文中,我們通過使用循環完全卷積網絡(RFCN)開發新的顯着性模型更進一步。此外,循環體系結構使我們的方法能夠通過糾正其先前的錯誤自動學習優化顯着性映射。 為了訓練具有多個參數的這樣的網絡,我們提出了使用語義分割數據的預訓練策略,其同時利用對分割任務的強有力的監督以進行更好的訓練,並使網絡能夠捕獲對象的通用表示以用於顯著性檢測。
• RACDNN (Recurrent Attentional Networks for Saliency Detection)卷積 - 反卷積網絡可用於執行端到端顯着性檢測。 但是,它們不適用於多尺度的物體。 為了克服這種限制,在這項工作中,我們提出了一種循環注意卷積 - 反卷積網絡(RACDNN)。使用編碼器 - 解碼器流產生粗略顯着圖,並逐步確定不同的局部對象區域。 它利用空間變換器在每次迭代時處理圖像區域以進行改進。
• DLS(Deep Level Sets for Salient Object Detection)深度網絡難以區分對象邊界內的像素,因此深度網絡可能輸出具有模糊顯着性和不准確邊界的映射。為了解決搜索問題,在這項工作中,我們提出了一個深層次的網絡集來生成緊湊和統一的顯着性圖。利用一系列卷積層初始化顯著圖,然后在超像素級別對其進行細化。 水平集損失函數用於幫助學習二進制分割圖。
• UCF(Learning Uncertain Convolutional Features for Accurate Saliency Detection)在本文中,我們提出了一種新的深度卷積模型,用於精確的顯著目標檢測。 這項工作的關鍵貢獻是學習深度不確定的卷積特征(UCF),這可以提高顯着性檢測的魯棒性和准確性。這個算法基於Deeplab算法,該算法位於具有擴張卷積層的FCN的頂部。 它通過幾種啟發式顯著性方法的像素監督方法來學習潛在的顯着性和噪聲模式。
• LICNN(Lateral inhibition-inspired convolutional neural network for visual attention and saliency detection 沒查到有此文,作者筆誤了么,找到的請評論一下)
2)Muilti-stream network 單流網絡如Fig.2(c)所示,通常具有多個網絡流,每個網絡流是多通道顯著特征。 然后將來自不同流的輸出組合在一起以進行最終預測。
• MSRNet(Instance-level salient object segmentation)由三個自底向上/自頂向下網絡結構流組成,以處理輸入圖像的三個縮放版本。 這三個輸出通過可學習的注意力模塊最終融合。
• SRM(A stagewise refinement model for detecting salient objects in images)通過將它們從較粗糙的流中逐步傳遞到較為簡單的流來逐步確定顯著特征。 每個流的最頂層特征是使用地面實況顯著性掩碼進行監督。 金字塔池模塊進一步促進了多階段顯着性融合和改進。
• FSN (Look, Perceive and Segment: Finding the Salient Objects in Images via Two-stream Fixation-Semantic CNNs) 受到人類觀察事物的啟發,顯着的物體通常會獲得人們的視覺關注,將眼睛注視流和語義流的輸出融合到初始分割模塊中以預測顯著性。
3) Side-fusion network 側融合網絡將骨干網絡的多層響應融合在一起用於SOD預測,利用CNN層次結構的固有多尺度表示,如Fig.2 (d)。 側網絡輸出通常由GT監督,是深監督策略。
• DSS (Deeply Supervised Salient Object Detection with Short Connections) 增加了從較深側輸出到較淺側輸出的幾個短連接。 通過這種方式,更高級別的功能可以幫助降低側面輸出以更好地定位顯着區域,而較低級別的功能可以幫助豐富更高級別的側面輸出和更精細的細節。
• NLDF (Non-Local Deep Features for Salient Object Detection) 通過以自上而下的方式融合多級特征和對比度特征來生成局部顯著性圖,然后將局部地圖與由頂層產生的全局圖集成以產生最終預測。 通過從平均池中減去特征來獲得對比度特征。
• Amulet (Amulet: Aggregating Multi-level Convolutional Features for Salient Object Detection) 如何更好地聚合多級卷積特征圖以進行顯著對象檢測尚未得到充分研究。我們的框架首先將多級特征映射集成到多個分辨率中,同時包含粗略語義和精細細節。多個聚合特征以自上而下的方式進一步確定。 在最終融合之前,在每個聚合特征處引入邊界改進。多個聚合特征以自上而下的方式進一步確定。在最終融合之前,在每個聚合特征處引入邊界改進。
• DSOS (Delving into salient object subitizing and detection) 在本文中,我們探討了數值之間的相互作用。 為了從不同的角度解決多任務問題,我們提出了一種多任務深度神經網絡,通過使用動態權重預測來增加子資源來檢測顯着對象。大量實驗表明,subtizing knowledge(數學感知能力)為顯着對象檢測提供了強有力的指導。
• RADF (Recurrently aggregating deep features for salient object detection,未找到此文資源,如果有發一下鏈接) 利用綜合的側面特征來自我修復,並且重復這樣的過程以逐漸產生明確的顯着性預測。
• RSDNet-R (Revisiting salient object detection: Simultaneous detection, ranking, and subitizingofmultiplesalientobjects) 在門控機制下將早期層的初始粗略表示與細節特征相結合,以逐步地重新定義側輸出。 融合所有階段的地圖以獲得整體顯著性圖。
4) Side-fusion network 側面融合通過逐步合並來自較低層的空間細節豐富的特征來確定前饋過程中的粗略顯著性估計,並在最頂層產生最終映射(見Fig2. e)。
• DHSNet (DHSNet: Deep Hierarchical Saliency Network for Salient Object Detection) 通過使用遞歸層逐漸組合較淺的特征來重新確定粗略顯着圖,其中所有中間圖由GT顯著圖監督。
• SBF (Supervision by fusion:Towards unsupervised learning of deep salient object detector) 借用了DHSNet的網絡架構,但是在幾個未受監督的啟發式SOD方法提供的弱基礎事實下進行了訓練。
• BDMP (A bi-directional message passing model for salient object detection) 使用具有各種接收場的卷積層來確定多級特征,並通過門控雙向路徑實現層間交換。 重新定義的功能以自上而下的方式融合。
• RLN (Detect globally, refine locally: A novel approach to saliency detection) 使用類似inception的模塊來凈化低級功能。自上而下路徑中的循環機制進一步改善了組合特征。邊界改善網絡增強了顯著性輸出。
• PAGR (Progressive attention guided recurrent network for salient object detection) 通過合並多路徑循環連接以將更高級別的語義轉移到更低層,增強了特征提取路徑的學習能力。 自上而下的路徑嵌入了幾個通道空間注意模塊,用於重新定義功能。
• ASNet (Salient Object Detection Driven by Fixation Prediction) 我們建立了一個名為Attentive Saliency Network(ASNet)的新型神經網絡,該網絡學習從fixation map 中檢測顯着對象。在前饋傳遞中學習粗糙的fixation map,然后利用一堆convLSTM通過從連續的較淺層中結合多級特征逐個像素來迭代地推斷顯著對象。
• PiCANet (PiCANet: Learning Pixel-wise Contextual Attention for Saliency Detection) 將全局和局部像素級上下文關注模塊分層嵌入到U-Net結構的自上而下路徑中。
• RAS (Reverse Attention for Salient Object Detection) 在自上而下的途徑中嵌入反向注意(RA)塊以指導殘差顯著性學習。 RA塊使用更深層次輸出的補充來強調非目標區域。
5) Branched network 分支網絡是單輸入多輸出結構,其中底層共享以處理公共輸入,頂層專用於不同輸出。 其核心方案如fig.2(f)所示。
• SU (Saliency unified: A deep architecture for simultaneous eye fixation prediction and salient object segmentation,找不到此文資源) 在分支網絡中執行眼動點檢測(FP)和SOD。 共享層捕獲語義和全局上下文顯著特征。 FP分支學習從頂部特征推斷出fixations,而SOD分支聚合側面特征以更好地保留空間線索。
• DS (Deepsaliency: Multi-task deep neural network model for salient object detection) 由SOD分支和語義分段分支組成,共享底層以提取語義豐富的特征。 每個分支由一系列卷積和反卷積層組成,以產生像素預測。
• WSS (Learning to detect salient objects with image-level supervision) 由圖像分類分支和SOD分支組成。 SOD分支受益於在圖像級監督下訓練的特征,並以自上而下的方案產生初始顯着性圖,其進一步由迭代條件隨機場(CRF)重新定義並用於微調SOD分支。
• ASMO (Weakly supervised salient object detection using image labels) 與WSS執行相同的任務,並在弱監督下接受培訓。 主要區別在於ASMO中的共享網絡使用多流結構來處理不同尺度的輸入圖像。
• C2S-Net (Contour knowledge transfer for salient object detection) (1)通過將訓練過的輪廓檢測模型自動轉換為顯著性分割模型;(2)提出了一種基於已訓練輪廓檢測網絡的新型輪廓到顯著網絡(C2S-Net);(3)介紹了一種簡單而有效的contour-to-saliency transferring 方法,以減小輪廓和顯着對象區域之間的誤差(即mask標記方法)
(3) 基於混合網絡(Hybrid-Network)的模型 一些深度SOD方法結合了基於MLP和FCN的子網,旨在利用多尺度上下文產生邊緣保留檢測(見fig.2(g))。
• DCL (Deep contrast learning for salient object detection) 網絡包括兩個部分,一個pixel-level fully convolutional stream和一個segment-wise spatial pooling stream。第一步產生一個顯著圖,第二步產生 segment-wise features和顯著性間斷點。最后一個全連接CFR模型可以合並改善。
• CRPSD (Saliency detection via combining regionlevel and pixel-level predictions with cnns) 結合了像素級和超級像素級別顯着性。前者是通過融合FCN的最后和倒數第二側輸出特征生成的,而后者是通過將MCDL應用於自適應生成區域而獲得的。 只有FCN和融合層是可訓練的
第二節:監督級別
根據人類注釋的顯著性masks是否用於訓練,深度SOD方法可以分為完全監督方法和無/弱監督方法。
(1) 基於完全監督方法的模型
大多數深度SOD模型都使用大規模的逐像素(pixelwise:不知道 這個怎么翻譯最准確)人工注釋進行訓練。這些完全監督的方法的成功在很大程度上受益於大量的手動注釋數據。然而,對於SOD任務,獲得大規模像素級注釋是耗時的並且需要大量且密集的人類標記。此外,在精細標記的數據集上訓練的模型往往過度,並且通常很難概括為現實生活中的圖像。因此,如何用較少的人類注釋訓練SOD成為越來越受歡迎的研究方向。
(2) 基於無/弱監督方法的模型、
非/弱監督學習是指沒有任務特定的真值監督的學習。為了擺脫費力的手動標記,一些SOD方法努力使用圖像級分類標簽或由啟發式非監督SOD方法或其他應用程序生成的偽像素明顯注釋來預測顯着性。實驗表明這些方法與現有技術具有可比性。
1) 類級別監督(Category-level supervision) 已經表明,用圖像級標簽訓練的分層深度特征具有定位包含目標區域的能力,這有望提供用於檢測場景中的顯著對象的有用提示。 因此,當前的大規模圖像分類數據集也可用於訓練深度SOD模型以定位顯著對象。
• WSS (Learning to detect salient objects with image-level supervision) 首先使用ImageNet預先訓練雙分支網絡以預測一個分支處的圖像標簽,同時估計另一個分支處的顯著圖。 估計的地圖由CRF重新定義並用於調整SOD分支。
• LICNN (Learning to detect salient objects with image-level supervision) 它依賴於ImageNet預訓練的圖像分類網絡,以生成“post-hoc”顯著圖。 由於橫向抑制機制(lateral inhibition mechanism),它不需要與任何其他SOD注釋進行明確訓練。
2) 偽像素級別監督(Pseudo pixel-level supervision) 雖然提供信息,但圖像級標簽很稀疏,無法產生精確的像素顯著性分割。 一些研究人員提出利用傳統的非監督SOD方法或輪廓信息來自動生成噪聲顯著圖,這些顯著圖逐步被重新定義並用於提供精確的像素級監督,以訓練更有效的深度SOD模型。
• SBF (Supervisionbyfusion:Towards unsupervised learning of deep salient object detector) 通過融合過程生成顯著性預測,該融合過程整合了由幾個經典的非監督的顯著物體檢測器,在圖像內和圖像間水平產生的弱顯著圖。
• ASMO (Supervisionbyfusion:Towards unsupervised learning of deep salient object detector) 訓練具有圖像分類標簽的多任務FCN和啟發式非監督SOD方法的噪聲圖。 前三級激活圖的粗略顯著性和平均圖被饋送到CRF模型中以獲得用於微調SOD子網的精細圖。
• DUS (Deep unsupervised saliency detection: A multiple noisy labeling perspective) 受幾種傳統的非監督SOD方法啟發,生成的噪聲顯著圖中的潛在顯著性和噪聲模式,並為下一次訓練迭代產生精確顯著性圖。
• C2S-Net (Contour knowledge transfer for salient object detection) 使用CEDN從輪廓生成像素方式的顯著性掩模並訓練SOD分支。 輪廓和SOD分支交替地相互更新並逐步輸出更精確的SOD預測。
第三節:學習范式
從不同學習范式的角度來看,SOD網絡可以分為單任務學習(STL)和多任務學習(MTL)。
(1) 基於單任務學習(STL)的方法
在機器學習中,標准方法是一次學習一個任務,即單任務學習。大多數深度SOD方法都屬於這種學習范式。他們利用來自單一知識領域的監督來訓練SOD模型,使用SOD域或其他相關域,例如圖像分類。受人類學習過程的啟發,從相關任務中學到的知識可用於幫助學習新任務,多任務學習(MTL)旨在同時學習多個相關任務。通過合並來自相關任務的額外訓練信號的領域特定信息,模型的泛化能力得到改善。在任務之間共享樣本也減輕了用於訓練重參數模型(例如深度學習模型)的數據缺乏,特別是在任務相關注釋有限的非/弱監督學范式下。
一些基於MTL的SOD方法在同一架構上串聯訓練不同的任務; 一些人通過將不同的客觀索引項納入損失函數來同時學習多領域知識;同時利用分支網絡結構,其中底層是共享的,而頂層是任務特定的。
當前基於MTL的SOD模型通常訓練有諸如顯著對象子化,眼動點檢測,圖像分類,噪聲模式學習,語義分割和輪廓檢測之類的任務。 協作特征表示的學習提高了泛化能力以及所有(原文用both,疑筆誤)任務的表現。
1) 顯著目標計數(Salient object subitizing) 人類快速計算少量物品數量的能力被稱為數感(記數)。 一些SOD方法同時學習顯著對象的數量和檢測。
• MAP (Unconstrained salient object detection via proposal subset optimization) 首先輸出一組與顯著目標的數量和位置匹配的得分邊界框,然后基於最大后驗執行子集優化公式,以共同優化顯著對象提議的數量和位置。
• DSOS (Delving into salient object subitizing and detection) 使用輔助網絡來學習顯著目標計數,這通過交替其自適應權重層的參數來影響SOD子網。
• RSDNet (Delving into salient object subitizing and detection) 重新審視顯着對象檢測:多個顯着對象的同時檢測,排序和子圖化
2) 眼動點檢測(Fixation prediction) 旨在預測人眼注視位置。 由於其與SOD的密切關系,從這兩個相關任務中學習共享知識有望改善兩者的性能。
• SU (Saliency unified: A deep architecture for simultaneous eye fixation prediction and salient object segmentation) 在分支網絡中執行眼動點檢測和SOD。 共享層學習捕獲語義和全局上下文顯著性特征。 分支層經過特殊訓練,可以處理任務特定問題。
• ASNet (Salient object detection driven by fixation prediction) 通過聯合訓練自下而上的途徑來獲得眼動圖來學習SOD。 自上而下的路徑通過在生物相關的視覺知識指導下結合多層次特征,逐步確定目標級顯著估計。
3) 圖像分類( Image classification) 圖像類別標簽可以幫助定位區分區域,區域通常包含顯著目標候選區域。 因此,一些方法利用圖像類別分類來輔助SOD任務
• WSS (Learning t odetect salient objects with image-level supervision) 學習前景推斷網絡(FIN)以預測圖像類別以及估計所有類別的前景圖。 FIN進一步調整以在CRF重新定義的前景圖的監督下通過若干反卷積層預測顯著圖。
• ASMO (Weakly supervised salient object detection using image labels) 學習在傳統的非監督SOD方法下的類別,在標簽和偽真值顯著圖的監督下同時預測顯著性圖和圖像類別。
4) 噪聲模式模型 (Noise pattern modeling ) 從現有的啟發式非監督SOD方法生成的帶噪聲顯著圖中學習噪聲模式,旨在提取“純”顯着性圖以監督SOD訓練。
• DUS (Deep unsupervised saliency detection: A multiple noisy labeling perspective) 建議用傳統的非監督SOD方法模擬噪聲監測的噪聲模式,而不是去噪。將 SOD和噪聲模式建模任務在單一損失下聯合優化。
5) 語義分割( Semantic segmentation ) 是為每個圖像像素分配一組預定類別的標簽。可以將視圖視為類不可知的語義分割,其中每個像素被分類為屬於顯著目標或不屬於顯著目標。 在兩者具有相似視覺外觀的情況下,高級語義在區分顯着對象和背景方面起着重要作用。
• RFCN (Saliency detection with recurrent fully convolutional networks) 首先在PASCAL VOC2010分割數據集上進行預訓練,以學習語義信息,然后在SOD數據集上進行調整,以預測前景和背景圖。 顯着性圖是前景和背景分數的softmax組合。
• DS (Deepsaliency: Multi-task deep neural network model for salient object detection) 它在分支網絡中執行SOD和語義分割,其中共享層學習協作特征表示。 在訓練期間,一個分支在每次訓練迭代時更新另一個分支。
6) 輪廓檢測( Contour detection) 響應屬於對象的邊而不考慮背景邊界。 雖然看起來本質上不同,但輪廓可以為識別圖像中的顯着區域提供有用的先驗。
• C2S-Net (Saliency detection with recurrent fully convolutional networks) 首先在PASCAL VOC2010分割數據集上進行預訓練,以學習語義信息,然后在SOD數據集上進行調整,以預測前景和背景圖。 顯着性圖是前景和背景分數的softmax組合。
第四節:學習范式
SOD的目標是定位和分割圖像中最引人注目的對象區域。 如果輸出掩碼僅表示每個像素的顯著而不區分不同的對象,則該方法屬於對象級SOD方法; 否則,它是一個實例級SOD方法。
(1) 對象級的方法
大多數SOD方法是對象級方法,即被設計為在不知道各個實例的情況下檢測屬於顯著對象的像素。
(2) 實例級的方法
實例級SOD方法產生具有不同對象標簽的顯著性掩碼,其對檢測到的顯著區域執行更詳細的解析。 實例級信息對於需要細微差別的許多實際應用至關重要。
• MAP (Unconstrained salient object detection via proposal subset optimization) 強調無約束圖像中的實例級SOD。 它首先生成大量候選對象,然后選擇排名靠前的對象作為輸出。
• MSRNet (Instance-LevelSalientObjectSegmentation) 將顯著實例檢測分解為三個子任務,即像素級顯著性預測,顯著對象輪廓檢測和顯著實例識別。
第三章:顯著目標檢測數據集
隨着SOD的快速發展,產生了大批相關數據集,這些數據集在SOD模型訓練和Performance Benchmarking中都發揮着重要作用。Table.3總結了具有代表性的17個數據集。
早期的SOD數據集通常收集通常只有一個顯著目標的圖像,提供的邊界框注釋被認為並不足以進行可靠評估。之后,出現了帶有像素方式掩模的大型數據集,其中包含非常有限數量的對象和簡單背景的圖像。最近,在復雜混亂背景下且單幅圖有多個顯著目標的顯著數據集被收集。特別是,一些數據集提供了額外的注釋,如數字或實例級信息,便於其他相關任務或應用。圖3顯示了16個可用數據集的注釋分布。
第一節:早期SOD數據集
早期的SOD數據集通常包含簡單的場景,其中1~2個顯著對象從簡單背景中脫穎而出。
• MSRA-A (Learning to detect a salient object) 包含從各種圖像論壇和圖像搜索引擎收集的20,840張圖像。 每個圖像都有一個清晰,明確的對象,相應的注釋是三個用戶提供的邊界框由“少數服從多數”選擇制定。
• MSRA-B (Learning to detect a salient object) 作為MSRA-A的一個子集,有由9個用戶使用邊界框重新標記的5000個圖像。與MSRA-A相比,MSRA-B的模糊度較低。 突出的對象。 MSRA-A和MSRA-B的性能變得飽和,因為大多數圖像僅包括圍繞中心位置的單個且清晰的顯着物體。
• SED(Image Segmentation by Probabilistic Bottom-Up Aggregation and Cue Integration) 包括單個對象子集SED1和雙個對象子集SED2,每個子集包含100個圖像並具有逐像素注釋。 圖像中的物體通過各種低級線索(例如強度,紋理等)與周圍環境不同。每個圖像由三個主體分割。,如果至少兩個主體同意,則將像素視為前景。
• ASD(Frequency-tuned Salient Region Detection) 包含1,000個逐像素真值。 從MSRA-A數據集中選擇圖像,其中僅提供顯着區域周圍的邊界框。 ASD中的精確突出掩模是基於對象輪廓創建的。
1. http://www.wisdom.weizmann.ac.il/∼vision/Seg Evaluation DB/dl.html
2. https://ivrlwww.epfl.ch/supplementary material/RK CVPR09/
3. http://elderlab.yorku.ca/SOD/
4. https://mmcheng.net/zh/msra10k/
第二節:最近流行的SOD數據集
最近出現的更具挑戰性的數據集往往含有相對復雜的背景且包含多顯著對象的場景圖像。 在本節中,我們將回顧七種最受歡迎且廣泛使用的數據集。 它們的受歡迎程度大致歸因於高難度和改進的注釋質量。
• SOD (Design and perceptual validation of performance measures for salient object segmentation) 包含來自伯克利分割數據集的120張圖像。每個圖像由七個主題標記。許多圖像具有多個與背景或與圖像邊界形成低色彩對比度的顯著對象。提供像素注釋。
• MSRA10K(Frequency-tuned Salient Region Detection) 也稱為THUS10K,包含從MSRA中選擇的10,000張圖像,涵蓋了ASD中的所有1,000張圖像。 圖像具有一致的邊界框標記,並且進一步使用像素級注釋進行擴充。 由於其大規模和精確的注釋,它被廣泛用於訓練深SOD模型(見表2)。
• ECSSD(Hierarchical saliency detection) 由1000個圖像組成,具有語義上有意義但結構復雜的自然上下文。 真值由5名參與者注釋。
• DUT-OMRON(Saliency detection via graph-based manifold ranking) 包含5,168張背景相對復雜和內容多樣性的圖像。 每個圖像都伴有像素級真值注釋。
• PASCAL-S(The secrets of salient object segmentation) 由從PASCALVO 2010的VAL集合中選擇的850個具有挑戰性的圖像。除了眼動點記錄外,還提供了粗略的像素和非二值顯著目標注釋。
• HKU-IS(Visual saliency based on multiscale deep features) 包含4,447個復雜場景,其通常包含具有相對不同空間分布的多個斷開連接的對象,即,至少一個顯著對象接觸圖像邊界。 此外,類似的前/后地面外觀使這個數據集更加困難。
• DUTS(Learning to detect salient objects with image-levels supervision) 最大的SOD數據集,包含10,553個訓練和5,019個測試圖像。 訓練圖像選自ImageNet DET 訓練集/值集,以及來自ImageNet測試集和SUN數據集的測試圖像。 自2017年以來,許多深度SOD模型都使用了DUTS訓練集訓練(見表2)。
第三節:其他特殊的SOD數據集
除了上面提到的“標准”SOD數據集之外,最近提出了一些特殊的數據集,這些數據集有助於追蹤SOD中的不同方面並產生相關的研究方向。 例如,其中一些使用實例級注釋構建數據集; 一些包括沒有顯著物體的圖像; 等等。
• SOS(Salient object subitizing) 為SOD計數,即,在沒有昂貴的檢測過程的情況下預測顯著對象的數量。 它包含6,900個圖像。 每個圖像都標記為包含0,1,2,3或4+個顯着對象。 SOS被隨機分成訓練(5,520張圖像)和測試集(1,380張圖像)。
• MSO(Salient object subitizing) 是SOS測試集的子集,包含1,224個圖像。 它具有關於顯着對象數量的更均衡的分布,並且每個對象都用邊界框注釋。
• ILSO(Instance-level salient object segmentation) 具有像素級實例級顯著性注釋和粗略輪廓標記的1,000個圖像,其中基准測試結果使用MSRNet生成。 ILSO中的大多數圖像都是從[26],[34],[52],[67]中選擇的,以減少對顯着對象區域的模糊性。
• XPIE(What is and what is not a salient object? learning salient object detector by ensembling linear exemplar regressors) 包含10,000個具有明確,顯著目標的圖像,這些圖像用像素方式的基礎事實進行注釋。 它涵蓋了簡單和復雜的場景,並包含不同數量,大小和位置的顯著對象。 它有三個子集:Set-P包含625個具有地理信息的感興趣的地方圖像; Set-I包含8,799個帶有對象標簽的圖像; 和Set-E包括576個帶有眼動點注釋的圖像。
• SOC(Salient objects in clutter: Bringing salient object detection to the foreground) 有6,000張圖片,共有80個常見類別。 一半圖像包含顯著對象,其他圖像不包含任何內容。 每個包含顯著對象的圖像都使用實例級SOD真值,對象類別(例如,狗,書)和具有挑戰性的因素(例如,大/小對象)進行注釋。非顯著對象子集具有783個紋理圖像和2,217個 真實場景圖像(例如,極光,天空)。
第四章:評估指標
有幾種方法可以衡量模型預測和人類注釋之間的一致性。 在本節中,我們將回顧四種被普遍認可和廣泛采用的SOD模型評估方法。
• Precision-Recall (PR) 根據二值化顯著mask和真值來計算:
其中TP,TN,FP,FN分別表示真陽性,真陰性,假陽性和假陰性。 為了獲得二進制掩碼,應用一組范圍從0到255的閾值,每個閾值產生一對精確/召回率以形成用於描述模型性能的PR曲線。
• F-measure 通過計算加權調和平均值來全面考慮精度和召回:
根據經驗設定為0.3,以更加強調精度。 但很多方法並不是通告整個F-measure plot(不知道怎么翻譯),而是直接使用plot中的最大Fβ值,而另一些方法使用自適應閾值,即預測顯著圖的平均值的兩倍,以生成二元顯著性映射並報告相應的平均F-measure值。
• Mean Absolute Error (MAE) 盡管它們很受歡迎,但上述兩個指標未能考慮真正的負像素。 MAE用於通過測量歸一化映射
和真值掩碼之間平均像素方向得絕對誤差來解決這個問題:
• Weighted Fβ measure (Fbw) 通過交替地計算精度和召回的方式直觀地推廣了F-measure。它將四個基本量TP,TN,FP和FN擴展為真實值,並根據鄰域信息為不同位置的不同誤差分配不同的權重(ω),定義為:
• Structural measure (S-measure) 與上述僅解決逐像素錯誤的評估方式不同,評估實值顯著性映射與真實值之間的結構相似性。S-measure(S)考慮兩個術語,So和Sr,分別指對象感知和區域感知結構的相似性:(下式α通常設為0.5)
• Enhanced-alignment measure (E-measure) 同時考慮圖像的全局均值和局部像素匹配:
其中φS是增強的對齊矩陣,它分別在減去它們的全局均值后反映S和G之間的相關性。
• Salient Object Ranking (SOR) 是用於顯著對象計數任務的評估方法,其值反映在同一圖像中多個顯著對象的的真值order(groud truth order ,不知怎么翻譯好)rgG 與預測排序order(predictedrand order) rgS 之間的標准化Spearman的秩次相關性:
其中cov(·)計算協方差,σ{·}表示標准差。
第五章:基准
第一節:總體的基准表現
表4展示了在SOD研究中廣泛使用和測試的6個流行數據集中29種最先進的深SOD模型和3種表現最佳的經典SOD方法的性能。三個評估度量,即最大Fβ,Smeasure和MAE,用於評估逐像素顯著性預測精度和顯著區域的結構相似性。
• Deep v.s. Non-deep learning 將表4中的3種表現良好的啟發式SOD方法與深度方法進行比較,我們發現深度模型能夠大大提高預測性能。這印證了基於大量訓練數據的深度神經網絡的強大學習能力。
• Performance evolution of deep SOD 自2015年第一次引入深度SOD模型以來,性能逐漸提高,證明了視覺顯著性計算模型的飛速進展。在深度模型中,2016年提出的 MAP 表現最平凡普通,因為它只輸出邊界框 突出的對象。 這表明需要准確的注釋以進行更有效的訓練和更可靠的評估。
第二節:基於屬性的評估
在SOD上應用DNN帶來了顯着的性能提升,但與前景和背景屬性相關的挑戰仍有待攻克。一個魯棒性好的SOD網絡應被期望處理各種復雜情況。在本節中,我們分析了混合基准測試中的三個性能最好的啟發式SOD方法和三個性能最好深度方法的性能,並對所選SOD方法的性能進行了詳細的基於屬性的分析。
(1) 模型、基准與屬性 Models, benchmark and attributes
我們選擇三個表現最好的啟發式模型,即HS [34],DRFI [48]和wCtr [35],以及三種最新的深度學習方法,即DGRL [88],PAGR [89]和PiCANet [39]來執行基於屬性的分析。 所有深度模型都在同一數據集上進行訓練,即DUTS [73]。 我們構建了一個混合基准,包括從6個數據集(每個300個)中隨機選擇的1,800個獨特圖像,即SOD [118],ECSSD [34],DUT-OMRON [52],PASCAL-S [59],HKU-IS [26] ]和DUTS [73]的測試集。 請注意,此基准測試也將用於§5.3和§5.4。
受[59],[120],[130]的啟發,我們使用豐富的屬性集注釋每個圖像,考慮顯著的對象類別,挑戰和場景類別。顯著牧寶分為人類,動物,人造物品和NatObj(自然物體),其中NatObj包括各類自然物體,如水果,植物,山脈,冰山,水(如湖泊,條紋)等。這些挑戰描述了一些經常使SOD方法陷入困難的因素,例如遮擋,背景聚類,復雜形狀和物體尺度,如Table.5所示。
圖像場景包括室內,城市和自然,其中最后兩個表示不同的室外環境。 請注意,屬性不是互斥的,即可以同時為圖像分配多個屬性。 一些樣本圖像如Fig.4所示。
(2) 分析 Analysis
• 數據集中容易和困難的兩個圖像類別 ‘Easy’ and ‘Hard’ object categories. 深度與非深度SOD方法以不同方式審視對象類別(見 Table.6)。對於基於深度學習的方法,NatObj顯然是各種顯着對象類別中最具挑戰性的類別,這可能是由於可用訓練數據相對較少的緣故。動物類別似乎是最容易的,即使該部分的訓練數據量不是最多的,這主要是由於其特定的語義含義。相比之下,啟發式方法通常擅長分割顯性NatObj類別的牧目標,而人類類別目標較難,這可能是由於缺乏高級語義學習。
• 最具和最不具挑戰性的因素 Most and least challenging factors. Table.6 顯示,由於DNN提取高級語義的強大能力,深度方法可以更高精度地預測HO。 啟發式方法對MO表現良好,因為手工制作的局部特征有助於區分不同對象的邊界。 由於精確標記小尺寸物體的固有困難,深度和非深度方法都表現出較低的SO性能。
• 最困難與最不困難的場景 Most and least difficult scenes. 當面對不同的場景時,深度和啟發式方法的表現相似(表6)。 對於這兩種類型的方法,自然場景是最簡單的,這是合理的,因為它占據了超過一半的樣本。 室內場景比城市場景更難,因為前者通常在有限的空間內包含一些物體,並且經常伴隨嚴重的照明分布不均勻。
• 深度學習的其他優勢 Additional advantages of deep models. 首先,如表6所示,深度模型在兩個一般對象類別Animal和Artifact上實現了很大的改進,顯示了它從大量示例中學習的能力。 其次,深度模型也對不完整的對象形狀(HO和OV)不太敏感,因為它們學習高級語義。 第三,深度模型縮小了不同場景類別(Indoor v.s.Natural)之間的性能差距,顯示出對各種背景設置的魯棒性。
• 頂部與底部預測 Top and Bottom predictions. 從表7中,啟發式方法對於多種自然對象(NatObj)比對人類目標表現更好。 相反,深度學習方法似乎對自然對象NatObj表現不好,而對動物目標表現不錯。 對於挑戰因素,深度學習方法和啟發式方法都在處理復雜場景(CSC)和小對象(SO)遇到老問題。 最后,啟發式方法在室外場景(即城市和自然場景)上表現最差,而深度方法在預測室內場景的顯着性方面相對較差。
第三節:輸入擾動的影響 Influences of Input Perturbations
諸如噪聲和模糊之類的輸入擾動經常在現實世界的應用中引起麻煩。 在本節中,我們通過三種典型的啟發式方法和三種深度方法研究了幾種典型輸入擾動的影響,並對混合基准進行了詳細分析(見§5.2)。
實驗輸入擾動包括高斯模糊,高斯噪聲,旋轉和灰度。 更具體地說,為了研究不同程度模糊的影響,我們使用高斯核將sigma設置為2或4來模糊圖像。對於噪聲,我們選擇兩個方差值,即0.01和0.08,覆蓋微小和中等幅度。 對於旋轉,我們分別將圖像旋轉+ 15°和-15°,並剪切出具有原始高寬比的最大框。 使用Matlab rgb2gray函數生成灰度圖像。
如§5.2所述,我們選擇三種表現最佳的啟發式模型,即HS [34],DRFI [48]和wCtr [35],以及三種在DUTS [73]上訓練的開源深度方法,即SRM [81],DGRL [88]和PiCANet [39]用於研究輸入擾動的影響。
擾動結果如Table.8所示。總體而言,與深度方法相比,啟發式方法對輸入擾動的敏感度較低,主要是由於手工超像素級特征的魯棒性。 具體來說,啟發式方法幾乎不受旋轉的影響,但是面對強高斯模糊,強高斯噪聲和灰色效應會有更明顯對的性能下降。 在所有的輸入擾動中,深度方法受到高斯模糊和強高斯噪聲的影響最大,這極大地降低了在淺層接收領域中的局部信息的豐富性(which greatly reduce the richness of local information in the reception fields of shallow layers)。 由於空間池化的特征架構(Deep methods are relatively robust against Rotation due to spatial pooling in feature hierarchy),深度方法對於圖像“旋轉”相對魯棒。
第四節:對抗性攻擊分析 Adversarial Attacks Analysis
深度神經網絡(DNN)模型已經在包括SOD在內的各種計算機視覺任務上取得了優越的效果。 然而,DNN卻令人驚訝地容易受到對抗性攻擊,其中輸入圖像中的一些視覺上難以察覺的擾動將導致完全不同的預測[131]。 盡管在分類任務中進行了深入研究,但SOD中的對抗性攻擊顯然未被充分探索。
在本節中,我們通過對三個有代表性的深度SOD模型進行對抗攻擊來研究深度SOD方法的魯棒性。 我們還分析了針對不同SOD模型的對抗性數據的可遷移性。 我們希望通過我們的觀察能夠揭示SOD的對抗性攻擊和防御,並且可以更好地觀測模型的漏洞。
(1)SOD模型對對抗攻擊的魯棒性 Robustness of SOD against Adversarial Attacks
我們選擇三個有代表性的深度SOD模型,即SRM [81],DGRL [88]和PiCANet [39]來研究SOD模型對對抗攻擊的魯棒性。 所有這三個模型都在DUTS數據集上進行訓練[73]。 我們試驗了三種模型的ResNet [96]骨干版本。 該實驗是在§5.2中引入的混合基准進行的。
由於SOD可以被視為具有兩個預定義類別的語義分割的特例,我們采用針對語義分割的對抗性攻擊算法,Dense Adversary Generation(DAG)[132],用於測量深度SOD模型的魯棒性。 DAG擾動在視覺上是不可察覺的,其每個通道中的最大絕對強度小於20。
對抗性示例如圖6所示。定量結果列於表9中。可以看出,小的對抗性擾動會導致所有三種模型的性能急劇下降。 與隨機施加的噪聲相比,這種對抗性的例子往往導致更糟糕的預測(參見表8和9)。
(2)跨網絡的可遷移性 Transferability across Networks
可轉移性是指針對一個模型生成的對抗性示例在沒有任何修改的情況下誤導另一個模型的能力[133],其廣泛用於針對現實世界系統的黑盒攻擊。 鑒於此屬性,我們通過使用為另一個生成的對抗性擾動攻擊一個模型來分析SOD任務中可轉移性是否存在。
3個研究模型(SRM [81],DGRL [88]和PiCANet [39])的可轉移性評估見表9。 它表明DAG攻擊基本在不同的SOD網絡之間並沒有很好的遷移。 三種模型中的每一種都在其他兩種模型產生的攻擊下實現了與無攻擊相差不多的性能。 這可能是因為攻擊的空間分布在不同的SOD模型中非常獨立的緣故。
第五節:跨數據集泛化評估 Cross-dataset Generalization Evaluation
數據集在訓練和評估不同深度模型方面發揮着重要作用。 在本節中,我們通過執行交叉數據集分析[134]來研究幾個主流SOD數據集的泛華能力和硬度(hardness),即在一個數據集上訓練代表性的簡單SOD模型,並在另一個數據集上進行測試。
簡單的SOD模型基本上是比較流行的自下而上/自上而下的編碼器 - 解碼器架構,其中編碼器部分由VGG16 [95]的卷積層組成,解碼器部分由三個卷積層組成,用於逐步更精確 像素顯著性預測。 為了增加輸出分辨率,第4個塊中最大池化層的步幅減小到1,第5個卷積塊的擴張速率被修改為2,並且移除了pool5層。 每個注意特征的側輸出通過具有Sigmoid激活的Conv(1×1,1)層獲得,並由真值顯著性分割圖監督。 最終預測來自第3個解碼器層。 網絡架構的圖示如圖7所示。
表10總結了使用max F的跨數據集泛化的結果數據。每列顯示在一個數據集上測試的所有訓練模型的性能,預示測試數據集的硬度(hardness)。每行顯示在所有數據集上測試的一個訓練模型的性能,預示訓練數據集的泛化能力。值得注意的是,由於各種訓練/測試的標准,這些數字與前面部分中顯示的基准值無法比較。什么是相對差異(怎么加了這句話,筆誤?)。我們發現SOC [120]是最難的數據集(lowest column Mean others 0.619)。這可能是因為SOC [120]與其他數據集相比具有獨特的位置分布,並且可能包含極大或小的顯著對象。 MSRA10K [58]似乎是最簡單的數據集(highest column Mean others 0.811,疑筆誤,應為0.821),但是也有最差的泛化能力 (highest row Percent drop 17%)。 DUTS [73]則可認為是具有最佳的泛化能力的數據集((lowest row Percent drop−16%))。
第六章:討論
第一節 模型設計
在下文中,我們將討論對SOD模型設計幾個很重要的因素和方向。
• 特征融合 Feature Aggregation. 分層深度特征的有效融合對於逐像素標記任務是很重要的,因為集成“多尺度”抽象信息是被認為有益的。現有的SOD方法的各種策略都是圍繞着特征聚合,例如多流/多分辨率融合[55],自上而下自下而上融合[37]或側輸出融合[38],[78],[83]。與其他域的功能融合,例如眼動點預測,也可以增強特征表示[79]。此外,可以去學習其他密切相關的研究任務,如語義分割[135] - [137],看看它們進行特征融合的方法,這些語義分割方法從語義上有意義的特征學習用於預測像素級標簽。
• 損失函數 Loss Function. 精心設計的損失函數在訓練更有效的模型中也起着重要作用。 在[91]中,從SOD評估度量導出的損失函數用於捕獲質量因子,並且已經憑經驗顯示以提高顯着性預測性能。 最近的另一項工作[138]提出 直接優化the mean intersection-over-union loss (directly optimize the mean intersection-over-union loss),這會對語義分割及其二元情況(即前景 - 背景分割)產生影響。 為SOD設計合適的損失函數是進一步提高模型性能的重要考慮因素。
• 網絡拓撲 Network Topology. 對於一個典型的例子,在ResNet [96]中,塊輸入通過跳連接直接添加到塊輸出,從而可以訓練非常深的網絡。 DenseNet [139]進一步將每一層與其所有后續層鏈接起來,極大地減輕了梯度消失並促進了特征重用。 CliqueNet [140]在塊內的兩個任意層之間添加雙向連接,最大化通過層的信息流並多次重用層參數。
除了手動確定網絡拓撲外,一個有前景的方向是采用自動機器學習(AutoML),旨在找到性能最佳的算法,盡可能減少人為干預。 有一個很有前景的例子,比如神經架構搜索(NAS)[141]能夠從頭開始生成用於圖像分類和語言建模的有競爭力的模型。 它使用強化學習(RL)去訓練controller RNN生成網絡超參數[142]。 通過遷移學習[143],[144]可以減輕AutoML的計算成本,這使得它更有效地受益於更廣泛的更復雜的任務。現有精心設計的網絡拓撲和AutoML技術都為未來構建新穎有效的SOD架構提供了方向。
• 動態推理 Dynamic Inference. DNN豐富的冗余特征有助於增加其抵抗輸入擾動的魯棒性,同時在推理期間不可避免地引入額外的計算成本。除了使用一些靜態方法(如內核分解[145]或參數修剪[146])提高DNN的計算效率外,一些工作還研究了在測試過程中動態地改變計算量。Bengio等人 [147] 建議在預測期間選擇性地激活多感知器(MLP)網絡中的部分神經元。 一旦添加的中間分類分支的分類熵低於閾值,BranchyNet [148]就會提前停止計算。最近提出的ConvNet-AIG [149]根據輸入圖像自適應地更新其推理圖,並且僅運行與某些類相關的層的子集。 與靜態方法相比,這些動態方法在不降低網絡參數的情況下提高了效率,因此很容易抵抗基本的對抗性攻擊(例如ConvNet-AIG [149])。對於SOD模型設計,合並合理有效的動態網絡結構有望提高效率和性能。 例如,有些層的特殊部分可以用作處理具有各種屬性的輸入圖像。
第二節 數據集收集
基於之前的觀察,我們建議將來應考慮數據選擇偏差,注釋不一致性,注釋質量和領域知識來構建SOD數據集。
• 數據選擇偏差 Data selection bias. 大多數現有的SOD數據集都會收集包含背景相對清晰中的顯著對象的圖像,同時丟棄不包含任何顯著對象或背景過於聚集的圖像。 但是,實際應用程序通常面臨更復雜的情況,這會對在這些數據集上訓練的SOD模型造成嚴重挑戰。 因此,以真實地反映現實世界去創建數據集的挑戰對於提高SOD的泛化能力至關重要[41]。最近已經有一些用於解決選擇偏差嘗試。 例如,SOC數據集[120]收集一些非顯著圖像以更好地模仿真實世界場景。 鼓勵更多此類努力去進一步提高針對現實生活中顯著性預測性能的挑戰。
• 注釋不一致 Annotation Inconsistency. 雖然現有的SOD數據集在最新SOD模型的訓練和評估中發揮着重要作用,但不應忽視和忽略不同SOD數據集之間的不一致性。 內部數據集不一致是不可避免的,因為數據可能不會被相同的主題和相同的規則/條件注釋。
圖8顯示了一些典型的例子。 頂行中的兩個案例表示實例級注釋不一致,其中存在多個可比較的實例,但是其中的全部或幾個將被注釋為顯着對象。中間行的左側案例顯示了陰影的不一致性。 中間行中的右側情況描述了某些類別的顯著對象選擇的不一致性,例如兩幅圖像中的圖像並不一致地標記為顯著或非顯著。左下方的箱子以不同的精度呈現自行車的注釋。 右下方的情況顯示了在標記湖面鏡面反射的顯著性時的不一致性。
• 粗糙的 vs. 精細注釋 Coarse v.s. Fine Annotation. 對於數據驅動學習,標簽質量對於訓練可靠的SOD模型和真實地評估它們至關重要。SOD注釋質量的第一個改進是用像素方式掩碼替換邊界框來表示顯著對象[30],[121],這極大地提高了SOD模型的性能。鑒於此,幾乎所有最新的SOD數據集都使用像素級標簽進行了注釋。 然而,不同樣品的標記精度可能不同。 例如,圖8中自行車的精度明顯不同。目前還沒有關於標簽質量與SOD模型性能之間關系的全面研究。 而關於語義分割的像素級標簽質量的類似研究[150]表明,(1)訓練用大量粗標記數據可以達到用較少數量的優質標記數據訓練所得的性能,(2)使用粗標簽先進行預訓練然后使用少量的優質標簽進行微調與使用大量優質標簽的訓練所得的模型相比是可以匹敵的。雖然有些作品已經證明了高質量標簽的重要性[120],[151],但對SOD模型訓練和數據集構建的需求還需要更深入的研究。
• 特定領域的SOD數據集 Domain-specific SOD datasets. SOD具有廣泛的應用場景,例如自動駕駛,電子游戲,醫學圖像處理等,因為它有助於定位感興趣的對象和情景感知。由於不同的場景設置,考慮到視覺外觀和語義成分,這些應用中的顯著性機制可能與傳統自然圖像設置中的顯著性機制完全不同。因此,必須收集這些應用領域的特定SOD數據集。 領域特定數據集帶來的好處已在FP中觀察到,其中在專門收集的數據集上訓練的顯著性模型優於其他模型,用於預測人群注視點(predicting fixations on crowds,可以見下圖,之后看看這篇論文究竟是什么意思 )[152],網頁[153] - [155]或駕駛期間[156],[157]。比較有前景的是,收集領域特定的數據可以幫助建立特定顯著性模型,與常規訓練的SOD模型相比,可以在特定任務設置下更好地檢測和分割顯著對象[47]。
第三節 顯著性排名和相對顯著性
傳統上,顯著對象通常是指場景中最顯著的對象或區域。 然而,對於存在多個顯著對象的圖像,這種“簡單”定義可能不充分。 因此,如何評估共存對象或區域的顯著性對於設計SOD模型和注釋SOD數據集是重要的。
一種可能的解決方案是對對象或區域的顯著性進行排名。 基於人類觀察的眼動點預測通常由場景中的顯著物體位置所引導,Li等人。 [59]建議使用眼動點對圖像語義的顯著性進行排名。
另一種解決方案是將幾個觀察者投票來決定多個突出實例的相對顯著性。例如,Islam等人[90] 使用一系列真值圖來訓練SOD模型,這些真值圖由不同觀察者定義的不同顯著性標准來制定,而不是經典的二元真值圖。不同實例之間的相對顯著性也可以作為顯著對象計數的重要線索。
第四節 與眼動點的關系
眼動點預測(FP)和SOD都與計算機視覺領域中視覺顯著性的概念密切相關。 FP可以追溯到20世紀90年代早期[158],旨在預測人類第一眼關注的焦點。 SOD的歷史可以追溯到[29],[30],並嘗試識別和分割場景中的顯著對象。 FP起源於人類認知和心理學界,而SOD則更像是由應用驅動的“計算機視覺”目標任務。 由於顯著性檢測的不同目的,兩者的生成顯著圖實際上是完全不同的。
FP和SOD之間的強相關性已在歷史上進行了探索。在Mishara等人的早期工作[159]中,人類眼動點用於識別感興趣的對象以進行分割,這種任務被稱為“主動視覺分割”。后來,一些研究(例如,[41],[59],[160],[161])定量地探索和證明顯著判斷與人類自由眼動點預測之間存在明顯的強相關性。Borji等人[161]同樣表明,對場景中“最顯著物體”的定義,即 吸引大部分人注釋的物體定義 與 人們第一眼就觀察的物體的定義,是非常相近的。
雖然密切相關,但只有少數模型同時考慮FP和SOD任務。 李等人 [59]提出了一種有效的SOD組合算法,該算法先進行分割處理,隨后使用FP的方法進行顯著性區域排序。FSN [79]融合了眼動流[99]和語義流[95]的輸出以預測顯著性,但它不會同時學習這兩個任務。
有一些SOD數據集伴隨着眼動點數據,例如PASCAL-S [59],DUT-OMRON [52]和XPIE的子集[119]。 但是,SOD注釋通常不受眼動點數據的指導。 例如,PASCAL-S的顯著性掩模是基於預分段區域構建的,使用鼠標點擊從中選擇“顯著”區域。 DUT-OMRON [52]標記了顯著物體的邊界框,而沒有考慮初步階段的固定。 相反,固定數據的過濾過程受到帶注釋的邊界框的影響。XPIE [119]的眼動點子集中的圖像是從[162]和[163]中的數據集中收集的。 但是,顯著性二元掩碼的注釋過程與眼動數據無關,眼動點數據與沒有眼動點的其他子集中的圖像相同。考慮到SOD和FP之間的強關聯性,建議在將來構建SOD數據集期間注釋顯著性掩模時使用眼動點信息,如Judd-A [161](圖像SOD)和VOS [164]中所做的那樣 (視頻SOD)。
更多關於SOD和FP關系背后的基本原理、模型和數據集的研究被鼓勵用於生成更符合人類視覺選擇機制的模型。
第五節 用語義特征提升SOD
語義信息在語義分割,目標檢測,目標類別探測等高級視覺任務中至關重要。相比之下,它在SOD中的作用基本上未被充分探索,部分原因是SOD似乎更多地依賴於低級別視覺線索而不是高級語義信息。 實際上,高級語義信息可以為檢測顯著對象提供非常有用的指導,特別是在諸如背景高度雜亂的困難場景中。
已經有一些努力嘗試去促進具有語義信息的SOD [70],[72]。 除了使用分割數據集預先訓練SOD模型[70],或利用多任務學習同時訓練SOD和語義分割[72],一個可行的方向是通過結合某些對象檢測方法中的分割特征來增強顯著特征,或者通過級聯[165]或使用激活[166]。 這種特征強化利用了嵌入在像素類別中的語義來幫助估計每個像素的類不可知顯著性值,尤其是在視覺模式不足以將目標與其周圍環境區分開的情況下。
第六節 現實場景中SOD的應用
DNN通常被設計為深度和復雜的,以便增加模型容量並在各種任務中實現更好的性能。 然而,需要更加現實和輕量級的網絡架構來滿足移動和嵌入式應用的需求,例如機器人,自動駕駛,增強現實等。由於模型裁剪推而導致的精度和泛化能力的降低需要盡可能小。
為了促進SOD在實際場景中的應用,利用模型壓縮[167]技術來學習具有競爭力預測精度的緊湊、快速的SOD模型是相當有價值的。 Hintonetal [168]擴展了[167]中的想法,並提出了知識蒸餾(KD),它能夠在大型教師模型的軟輸出(soften outputs)的監督下訓練深度淺或壓縮的學生模型,可以使圖像分類的精確度下降率很小。 羅梅羅等[169]通過利用教模型中的中級特征作為學生網絡訓練的“提示”,進一步擴展了KD。 當訓練更快的物體檢測模型時,這種壓縮技術已經顯示出在提高泛化能力和減輕缺陷方面的有效性[170],與圖像分類相比,這是一項更具挑戰性的任務。 值得探索利用這些技術壓縮SOD模型,以實現快速准確的顯著性預測。
還有一些應用程序,其中SOD的輸入是來自其他模態(例如depths)的圖像,並且與RGB數據集相比,標記數據是有限的。為了充分利用現有的RGB SOD數據集,除了使用通用RGB SOD特征表示進行初始化之外,還可以進行網絡處理。 在其他模態的數據中,可以使用交叉模態蒸餾(cross modal distillation)[171],其利用新的模態轉移從標記的RGB圖像到配對的未標記數據,並有效地學習特征層次。 通過這種方式,一般SOD的現有DNN架構可以擴展到其他模態,而無需收集額外的大規模標記數據集。
第七章:結論
在本文中,我們盡我們所掌握的知識,首先對SOD進行全面探討,其重點是圍繞深度學習技術。 我們首先從幾個不同的角度仔細探討和組織基於深度學習的SOD模型,包括網絡架構,監督水平等。然后,我們總結了流行的SOD數據集和評估標准,並編制了主要SOD方法的全面性能的基准。
接下來,我們研究了幾個以前未充分探索的問題,並在基准測試和基線方面做出了新的努力。 特別是,我們通過編譯和注釋新數據集並測試幾個有代表性的SOD算法來執行基於屬性的性能分析。 我們還研究了SOD方法關於各種輸入擾動的穩健性。 此外,我們在SOD中首次研究了SOD深層模型的魯棒性、可轉移性、對抗性攻擊。 此外,我們通過交叉數據集推廣實驗評估現有SOD數據集的概括性和硬度。 我們最終會深入了解SOD在深度學習時期的幾個未解決的問題和挑戰,並提供有關未來可能的研究方向的深刻討論。
所有顯着性預測圖,我們構建的數據集,注釋和評估代碼都可以在 https://github.com/wenguanwang/ SODsurvey 上公布。 總之,由於深度學習技術的驚人發展,SOD已經取得了顯着的進步,但它仍然具有明顯的改進空間。 我們希望這個綜述能夠提供一種有效的方法來了解最新技術,更重要的是,可以為未來的SOD探索提供幫助。