-------------------------------------------------------------------------------------------------------------------------------------------------------------------
譯文
摘要:在深度卷積網絡(ConvNet)的幫助下,邊緣檢測已經取得了重大進展。基於ConvNet的邊緣檢測器在標准基准測試中達到了人類水平。我們提供了對於這些檢測器輸出的系統研究,且經研究表明它們沒有准確定位邊緣,這對於需要清晰的邊緣輸入的任務來說可能是背道而馳的。此外,我們提出了一種新穎的細化架構來解決使用ConvNet學習邊緣檢測器的挑戰性問題。我們的方法利用自頂向下的向后細化路徑,逐步增加特征映射的分辨率以生成清晰的邊緣。我們的結果在BSDS500上取得了令人滿意的性能表現,在使用標准規范( standard criteria)時超越了人類的識別准確性,並在使用更嚴格的標准時大大優於最先進的方法。我們進一步證明了清晰邊緣映射對於估計光流,生成對象建議和語義分割是大有裨益的。另外,所提出的細化架構可以很容易地推廣到顯著性檢測任務,在五個常用的顯著性檢測( saliency detection)基准上取得了最先進的實驗結果。
關鍵詞索引:邊界檢測、清晰邊界
1 INTRODUCTION
邊緣檢測在計算機視覺中是一個成熟的問題。 在自然圖像中發現感知顯著的邊緣對於中等視覺(任務)是重要的。 此外,在邊界映射方面,邊緣檢測輸出通常用於其他視覺任務,包括光流,對象建議和目標識別。 自從我們的團隊采用基於學習的方法以來,我們已經看到了邊緣檢測方面的重大進展。 特別是,利用深度ConvNet檢測邊緣的全局邊緣檢測器(HED)等先進方法,在BSDS500等標准數據集上達到了人類水平。
那么邊緣檢測是一個已經解決了的問題嗎? 在圖1(a)中,我們展示了人類標記的邊緣的可視化,與來自HED(當前現有技術水平)和PMI(用於精確地定位邊緣的設計)的輸出相比較。 雖然HED結果得分較高,但邊緣圖的質量不太令人滿意——邊緣模糊,並且不符合實際的圖像邊界。 精確的邊緣檢測器必須在邊緣的“正確性”(區分邊緣和非邊緣像素)和邊界的“清晰度”(精確地定位邊緣像素)之間進行平衡。在基准期間匹配地面真實邊緣時,我們可以通過降低最大允許距離來實現“清晰度”。 當我們縮小評估標准(最大允許距離從d減小到d / 4)時,HED與人類之間的F1分數差距增加,HED與PMI之間的差距減小(見圖1(b))。

Fig. 1. (a) Visualization of edge maps from PMI and HED with input
images and ground-truth edges; (b) Performance (on the left image) drops
with decreased matching distance. With a tighter distance, the gap between
PMI and HED decreases and the gap between HED and human increases.
These results suggest that edges from HED are not well aligned with image
boundaries. We seek to improve the localization ability of ConvNet based
edge detector in this paper.
定性和定量結果都表明,來自ConvNet的邊緣映射是高度“正確的”,而“清晰的”邊緣映射則不是很好。這個問題深深扎根於現代ConvNet架構[11]。首先,由於連續的合並層,特征的空間分辨率在較高辨別性的頂層(Top Layers)中大大降低,導致邊緣輸出模糊。其次,由於大的感受域,完全卷積體系結構促使相鄰像素的相似響應,因此可能無法產生一個“單薄”的邊緣映射。這樣一個厚而模糊的邊緣圖可能是其他視覺任務的阻礙[10]。例如,最近的光流方法[12],[3]需要准確和清晰的邊緣輸入來內插稀疏匹配結果,因此可能產生一個伴隨模糊邊界的次優性能。
我們解決了使用ConvNet學習邊緣檢測器的挑戰性問題,並試圖提高HED的定位能力。為此,受到最近在密集圖像標記方面研究進展的啟發[13],[14],我們提出了一種新穎的改進體系結構。我們的方法配備了一個清晰的邊緣檢測(CED)網絡,具有自上而下的后向細化路徑,它使用高效的子像素卷積逐步提高了特征映射的分辨率[14]。細化路徑為網絡增加了額外的非線性,進一步降低了相鄰像素內的邊緣響應之間的相關性。我們的方法在BSDS500上取得了令人滿意的結果,在使用標准規范時超越了人類的表現,而且在使用更嚴格的評估標准時,在很大程度上超越了最先進的方法。更重要的是,由於骨干網絡對深度學習方法至關重要,因此我們改進HED和CED以及最先進的主干網絡[15]和所有邊輸出(side-output)的附加卷積層[16]。改進的CED在BSDS500上實現了最先進的實驗效果。而且我們也深入了解了原有CED和CED的改進。
邊界檢測是其他更高級視覺任務的基礎。 EpicFlow [3]是一種先進的光學流量估計方法,通過稀疏匹配執行邊緣保持插值(edge-preserving interpolation)以實現精確的密集匹配。 一些對象建議生成方法還需要在對象邊界周圍進行精確的邊緣預測,例如用預測的對象邊界計算分層分割的MCG [4]。 作為基於標准FCN [17]語義分割方法的后處理步驟,BNF [18]計算精確的對象邊界來優化由FCN產生的類似blob的( blob-like)和不好定位的預測。 通過三個對比實驗(特別是對於我們的方法和原始HED之間的比較),我們展示了光流的邊緣清晰度,對象建議和語義分割的好處。
最后,我們證明提出的網絡可以很容易地擴展到其他相關的任務,如顯著性檢測[19]。 基於ConvNet的邊界檢測和顯着區域檢測方法均輸出與原始圖像具有相同分辨率的響應圖。 並且響應圖中的每個像素指示輸入圖像中對應像素的概率為對象的邊界或屬於顯著區域。 因此,邊界檢測CED網絡可以很容易地適用於顯著的區域檢測。 通過這種方式,我們在五個常用的顯著性檢測數據集上獲得了最新的結果,表明了CED網絡的一般性。
因此我們的貢獻分為四部分:
1 我們提出了來自ConvNet的邊緣映射的系統研究。我們證明ConvNet擅長對邊緣像素進行分類,但是定位能力較差。
2 我們將細化方案[13]和子像素卷積[6]結合成一個新穎的架構,專門設計以用於學習清晰的邊緣檢測器。我們在BSDS500上的結果比所有匹配距離上的最先進的方法都要好。
3 我們證明,清晰邊緣映射可以改善光流估計,對象建議生成和語義分割。
4 我們通過顯著性檢測任務來證明我們所提出網絡的一般性。 在沒有架構修改的情況下,在五個常用的顯著性檢測數據集上達到了最先進的結果。
我們組織我們的論文如下:
第二部分回顧了邊緣檢測的相關工作。
第三部分介紹了我們對ConvNet的邊緣映射的研究。
第四部分詳細介紹我們的方法。
第五部分展示了邊界檢測的實驗結果。
第六節展示了清晰界限帶來的好處。
最后,第七節說明了我們提出的網絡顯著性檢測的一般性。
注:當下,由於課題研究需要,接下來,只翻譯學習本文的第三部分、第四部分、第六部分、第七部分
3 來自於ConvNet的薄邊緣(標題翻譯得不好)
我們首先研究HED的輸出邊緣映射[7],最近一個成功的邊緣檢測器使用ConvNet。 HED預測網絡不同層的邊緣置信度,從而得到一組邊緣映射。 這些映射由於網絡中的連續池化操作而被下采樣。 然后,進一步通過雙線性插值對其進行上采樣以適應輸入分辨率,並對其進行平均以產生最終的邊緣映射。在圖2(a)中我們展示了邊緣映射的一個例子。 盡管檢測器在BSDS上實現了0.78的ODS,但邊緣圖的視覺質量並不令人滿意。 邊緣看起來模糊,視覺上有缺陷。

Fig. 2. (a) Thick and noisy edge map generated with HED [7] before non-
maximal suppression(NMS); (b) Optimal Dataset Score (ODS) for both HED
and human drop with decreased matching distance on the BSDS500 test set.
However, the performance gap between HED and human increases from 2.3%
to 4.7% as the distance decreases from d to d/4.
為什么這樣一個模糊的邊緣映射在基准測試中達到了高分? 標准評估[9]遍歷所有置信度閾值,並使用雙向圖匹配在二值化邊緣映射與Ground-truth邊緣之間進行匹配。 匹配由最大允許距離d控制。 只要與最近的Ground-truth之間的距離小於d像素,錯位的邊緣像素仍然被認為是正確的。 通過一個正確的d,即使邊緣稍微偏移,我們也可以獲得較好的分數。
實際上,邊緣檢測必須在邊緣的“正確性”(邊緣和非邊緣像素之間的區分)和邊界的“清晰度”(精確定位邊緣像素)之間進行平衡[10]。清晰的邊緣對於其他視覺任務(如光流或圖像分割)可能是至關重要的。可以通過減小基准中的d來測量“清晰度”。 如圖2(b)所示,人的表現隨着d的減小而逐漸減弱。然而,HED輸出顯示更大的性能下降,表明HED邊緣與實際圖像邊界不一致。這符合我們對邊緣圖的視覺檢查。
4 使卷積邊界清晰
如何從ConvNet出發完成一個清晰的邊緣映射呢?我們從分析HED的體系結構開始。 像現代的ConvNets一樣,由於連續的池化操作,更具有辨別力的頂層空間的分辨率顯著降低。 HED進一步在不同分辨率的圖層上附加一個線性分類器,並使用雙線性插值(實現為反卷積)將其輸出上采樣到原始分辨率。 這個設計有兩個主要問題。 首先,完全卷積體系結構內的線性分類器在相鄰像素處產生相似的響應,這使得在相鄰像素區域很難產生一個邊緣出來。更重要的是,簡單的上采樣不能恢復原始的空間細節,並且進一步模糊了邊緣映射。
因此,生成清晰的邊緣映射需要修改架構。 在本節中,我們通過提出一種新穎的架構來解決設計一個邊緣檢測器(CED)的挑戰性問題。 我們的方法補充了HED網絡的后向細化路徑,它使用高效的子像素卷積逐步向上采樣特征[14]。 CED能夠生成更好地與圖像邊界對齊的邊緣映射。我們將介紹CED的細節並解釋我們的設計選擇。
A 架構概述
圖4顯示了CED的兩個主要組成部分:前向傳播途徑和后向細化(改善)途徑。 向前傳播途徑類似於HED。 它生成具有豐富語義信息的高維低分辨率特征圖。 后向細化路徑將沿着向前傳播路徑的特征圖與中間特征進行融合。 這個細化是通過細化模塊多次完成的。 每次我們使用子像素卷積將特征分辨率提高一個小的因子(2x),最終達到輸入分辨率。 網絡細節在下面小節中詳細說明。

Fig. 4. Our method of Crisp Edge Detector (CED). We add a backward-refining pathway, which progressively increase the resolution of feature maps. Our
refinement module fuses a top-down feature map with feature maps on the forward pass, and up-samples the map using sub-pixel convolution. This architecture
is specially designed for generating edge maps that are well-aligned to image boundaries.
B 細化模型
跳層連接為HED提供了使用不同層上的特征來查找邊緣的重要能力[7]。
圖3顯示了來自所有側輸出層和最終輸出邊緣映射(HED-fuse)的示例邊緣映射預測。較低層(HED-dsn1,HED-dsn2,HED-dsn3)捕獲更多的空間細節,同時缺乏足夠的語義信息。 相反,更深的層次(HED-dsn4,HED-dsn5)編碼更豐富的語義信息,但空間細節丟失。HED簡單地平均來自所有邊輸出層的獨立預測。我們認為這不是一個好的設計,因為它沒有探索ConvNet的層次特征表示。為了更好地融合多層特征,我們引入了精化模塊的后向細化路徑,類似於[13]。請注意,我們的檢測稀疏邊的任務與[13]中的分割對象明顯不同。因此,直接應用[13]中的相同模塊導致次優性能。
細化模塊重復幾次,以提高特征圖的分辨率。關鍵的想法是使用中間特征映射聚集通過路徑邊緣的證據(evidence)。模塊的詳細結構在第4部分(即本部分)的最后給出。每個模塊將來自后向路徑的自上而下的特征圖與來自前向路徑中的當前層的特征圖相融合,並且進一步通過小的因子 (2x)進行上采樣,然后通過路徑。 該模塊有兩個核心組件,即融合和上采樣。
融合:一個簡單的融合策略是直接連接兩個特征圖。 然而,這是存在問題的,因為它們的特征通道數不同。 直接連接這些特征會存在淹沒(drown)低維信號的風險。 類似於[13],我們通過降維來匹配兩幅特征圖之間的特征通道的數量。 這是通過附加的卷積層減少兩個特征映射的維度來完成的。 然后我們將這兩個低維特征映射與相同的通道連接起來。
我們用kh表示輸入前向通道特征映射的通道數。經過卷積和ReLU操作后,通道數減少至k’h,遠遠少於kh。對先前細化模塊的特征映射進行相同的操作,以從ku生成k’u。我們將上述功能圖連接成一個新功能映射到k’u+k’h個通道,並通過3×3的卷積層將其減少到k’d個通道的特征映射。因此,整體計算成本降低,並且兩個輸入特征圖是平衡的。
上采樣:融合后,我們的精化模塊也將提高功能圖的分辨率。我們用一個子像素卷積來對融合的特征圖進行上取樣[36]。子像素卷積與上采樣[37,38,39]的流行反卷積不同,是標准卷積,隨后是特征值的附加重新排列,稱為相移。 它有助於消除圖像超分辨率任務中的塊偽影( block artifact ),並保持較低的計算成本。 我們發現使用子像素卷積對於更好的邊緣定位是重要的。
假設我們有輸入通道i和期望的輸出通道o,卷積層的內核大小表示為(o,i,r,c),其中r和c分別表示內核寬度和內核高度。考慮到輸出特征圖的分辨率比輸入分辨率大k倍,傳統的反卷積層將采用的內核大小為(o,i,k×r,k×c)。子像素卷積不是通過單個反卷積層直接輸出放大的特征映射,而是由一個卷積層和一個跟隨的相移層組成。 卷積層的核大小為(o×k2,i,r,c),從而生成具有相同分辨率的o×k2個特征通道的特征映射。 然后,我們應用相移將輸出特征映射組合成具有o個特征通道的特征映射,但以固定順序將分辨率提高k倍。
Relationship to [7] and [13]:CED包含HED [7],是個特殊情況,其中3x3卷積和ReLU被線性分類器替代,並且使用漸進式上采樣。我們的方法與[13]不同,因為我們用子像素卷積來代替雙線性插值。這使得生成一個具有少量額外參數的更具表現力的模型成為可能。我們的邊緣檢測任務也不同於[13]中的對象分割。
C 實現細節
我們的實驗基於開源的HED代碼[7],使用Caffe[40]。 對於訓練,我們用預訓練的HED模型初始化前向傳播路徑。其他層用高斯隨機分布進行初始化,固定均值(0.0)和方差(0.01)。包括初始學習率,權重衰減和動量在內的超參數分別設置為1e - 5,2e - 4和0.99。
對於后向精細化路徑,頂層的卷積核的數量被設置為256。 這個數字在路徑上減半。 例如,第一,第二和第三自上而下細化模塊將分別具有128,64和32個特征通道。 由於特征映射的分辨率在每次合並操作之后都減小了2倍,因此子像素卷積在每個細化模塊中將輸入特征映射上采樣2x。
6 清晰邊界所帶來的好處(只翻譯學習與我研究內容相關的D部分)
如論文第一部分所述,邊界檢測對於一些較高級別的視覺任務是至關重要的。我們通過實驗來展示清晰邊界對於其他相關任務的的好處。我們把我們的方法插入光流估計,對象建議生成和語義分割,並評估其對每個任務的好處。
D 語義分割與清晰邊界
我們還展示了語義分割中應用清晰邊界所帶來的好處。語義分割是一個重要的高級視覺任務,旨在從預定義的一組類別中進行密集的像素級分類。在完全卷積網絡(FCNs)的幫助下,語義分割得到了快速發展[17]。然而,正如文獻[18]中所討論的,由於卷積層的大接受區域和連續下采樣層的分辨率大大降低,基於FCN的方法產生的分段是斑點狀的(blob-like),並且在物體邊界周圍效果很差。引入了一些后處理程序來緩解這個問題。而不是像[51]中所述使用顏色親和函數,[18]提出了邊界神經場(BNF),其特點是基於邊界的像素親和函數以及全局優化策略。BNF用輸入邊緣映射計算兩個像素之間的親和力,越過兩個像素之間的直線路徑的邊界的幅度值越大,兩個像素之間的親和性越低。因此,更清晰的邊界促進更精確的像素親和度估計。原始的BNF采用在FCN內部用插值卷積特征映射的線性組合生成的邊緣映射。我們簡單地用HED和CED結果代替它。同樣,HED和CED都只在BSDS500數據集上訓練。我們選擇Deeplab [51]作為最終的后處理步驟來生成初始分割結果和具有不同邊緣檢測器的BNF。
我們在Pascal上下文測試集上報告像素精度(PA),平均像素精度(MPA)和均值交叉點(平均IOU),如表五所示.HED和CED都在Pascal上下文訓練集上重新訓練。最初的Deeplab平均IOU為42.6%,經過HED和CED生成的邊緣圖BNF后處理程序的評估結果都得到了改善。CED-BNF在所有三個評估指標上都取得了最好的結果。圖11顯示了Deeplab的初始語義分割結果,帶有HED和CED的邊緣映射,HED-BNF和CED-BNF的后處理語義分割結果。清晰銳利的邊界(CED邊緣),CED-BNF可以沿着物體輪廓更多細節地改善初始分割結果。這些結果證明了語義分割的清晰界限的好處。


Fig. 11. Sample semantic segmentation results on Pascal Context val set. With
two different edge detectors (HED, CED), we post-process the initial results
produced by Deeplab with BNF. With sharp and clean edge maps (CED edge),
CED-BNF achieves better segmentation results, and captures more precise
details along object contour.
7 CED用於顯著性檢測
在本節中,我們證明與CED相同的體系結構可以在顯着性檢測任務上達到最先進的實驗結果。視覺顯著性檢測是一項重要且基本的任務,旨在檢測圖像中最明顯的對象或區域。許多計算機視覺任務需要顯著性檢測結果以用於以后的處理,如圖像檢索[54]和圖像分割[55]。傳統的顯著性檢測方法依賴於低級特征[56]或高級信息[57]。基於ConvNet的方法不是使用這些人為制作的特征,而是基於補丁或像素級的方式,大大超越了傳統的方法[19]。
同邊界檢測,顯著性檢測可以被處理為像素級顯著性估計任務。兩個任務都生成密集的像素級響應圖,每個像素指示對應像素屬於顯著區域或對象邊界的概率。因此,即使沒有網絡架構修改,HED和CED網絡也可以很容易地推廣到視覺顯著性檢測任務。
A 數據集和評估指標
跟隨文章[16],我們在5個廣泛使用的基准數據集上評估HED和CED:MSRA-B [56],ECSSD [59],HKU-IS [58],PASCAL-S [60]和SOD [61] 62。MSRA-B包含5000個圖像,主要是一個顯著的對象。數據集分為訓練集,驗證集和測試集,分別包含2,500,500,2,000個圖像。該數據集是從“人”,“馬”,“花”等數百個常見類別中收集而來的。ECSSD由具有復雜背景的1,000幅具有挑戰性的圖像組成。HKU-IS是一個新的大型和具有挑戰性的數據集,創建了4447個自然圖像。與MSRA-B數據集不同,MSRA-B數據集通常包含位於圖像中心的單個顯着對象,HKU-IS數據集中的圖像更可能包含具有不同位置的多個顯着對象。PASCAL-S數據集建立在PASCAL VOC [49] 2010分割挑戰的驗證集之上,包含850個具有雜亂背景的具有挑戰性的圖像。基於Berkeley分割數據集(BSD)[2],[9]構建的SOD由300個具有多個復雜顯着對象的圖像組成。為了與現有方法保持一致[16,63],我們只對MSRA-B訓練集和由3000幅圖像構成的驗證集訓練HED和CED,並對MSRA-B測試集上訓練好的模型進行評估。也在其他四個數據集進行同樣的評估。
使用兩個標准評估指標,F-measure(Fβ)和平均絕對誤差(MAE)來評估HED和CED。對於給定的連續顯著圖,我們可以使用閾值將其轉換為二進制掩碼。F-measure表示顯著性檢測結果的綜合性能,考慮到精度和召回率。精度是指正確預測的顯著像素的百分比,召回對應於預測顯著像素與Ground-truth顯著像素的比例。如[64]所述,F-measure是一種基於重疊的評估方法,它忽略了正確標記為非顯著性的像素。此外,在某些應用中,加權連續顯著圖比二元掩模(用於F-measure)更重要[65]。 應該采用更全面的評估指標。 MAE計算Ground-truth注釋和預測的顯著圖之間的平均逐像素差異。
B Ablation Study
注:這里先科普一下何為“Ablation Study”?
ablation study就是為了研究模型中所提出的一些結構是否有效而設計的實驗。比如你提出了某某結構,但是要想確定這個結構是否有利於最終的效果,那就要將去掉該結構的網絡與加上該結構的網絡所得到的結果進行對比,這就是ablation study。
說白了,ablation study就是一個模型簡化測試,看看取消掉模塊后性能有沒有影響。根據奧卡姆剃刀法則,簡單和復雜的方法能夠達到一樣的效果,那么簡單的方法更好更可靠。
Quora.com上的解釋是:
Examples:
- An LSTM has 4 gates: feature, input, output, forget. We might ask: are all 4 necessary? What if I remove one? Indeed, lots of experimentation has gone into LSTM variants, the GRU being a notable example (which is simpler).
- If certain tricks are used to get an algorithm to work, it’s useful to know whether the algorithm is robust to removing these tricks. For example, DeepMind’s original DQN paper reports using (1) only periodically updating the reference network and (2) using a replay buffer rather than updating online. It’s very useful for the research community to know that both these tricks are necessary, in order to build on top of these results.
- If an algorithm is a modification of a previous work, and has multiple differences, researchers want to know what the key difference is.
- Simpler is better (inductive prior towards simpler model classes). If you can get the same performance with two models, prefer the simpler one.
為了進行消融分析,我們首先在PASCAL-S上測試HED和CED。並且注意,在我們的實驗中沒有采用后處理步驟,例如基於條件隨機場(CRF [67])的平滑方法。如表七所示,HED達到了0.801的F值,而CED則提升了0.7%。這證明了CED對顯著性檢測的有效性。然后我們用V-D中提到的Improved-HED和Improved-CED進行實驗。除基於ResNet50的改進型HED和改進型CED外,我們還分別用VGG16-Improved-HED和VGG16-Improved-CED取代了骨干網絡。 改良型的VGG16HED的F值為0.822,比vanilla HED高出2.1%。VGG16-Improved-CED進一步提高了VGG16改進型HED的0.9%,甚至在沒有任何后處理步驟的情況下表現優於大多數現有技術。當用ResNet50作為骨干網絡時,Improved-HED和Improved-CED都取得了較好的性能,其中F-measure分別為0.826和0.846。並且注意到,由於我們在多尺度評估策略中沒有獲得收益,所以我們在測試階段用單尺度圖像進行評估。此外,如圖12所示,與Improved-HED(第四列)相比,Improved-CED(第三列)產生了更精確的顯着圖,並且明顯地顯示了顯着區域和背景之間的更高對比度。定量和定性結果都表明CED網絡對HED的優越性能。


C 與先進方法的比較
我們將性能最好的改進型CED與現有的基於ConvNet的6種方法(包括MDF [58],DCL [66],ELD [68],MC [69],DHS [19]和DSC [16] 2個經典方法,GC [70]和DRFI [63]進行比較。我們將我們的方法與以前的方法在F-measure和MAE分數方面進行了比較。詳細的結果列於表六。沒有復雜的基於CRF的后處理步驟,Improved-CED已經達到了最新的結果。經過基於CRF的后處理[16],[66],改進的CED-CRF得到了更好的結果。圖12提供了我們的方法與以前的方法的視覺比較。改進CED捕捉到了更完整的顯著性細節,特別是沿着對象的邊界。

終於完了。。。。。。,由於要做弱監督學習框架下的圖像語義分割,用到顯著性檢測這一模塊,這篇文章是3天前發布在arxiv上面的,不錯的一篇文章,仔細翻譯了幾個小時,希望能夠對感興趣的同領域的朋友有些微幫助。我的研究生課題是以前從未涉足過的,其實我還處於也當然處於摸着石頭過河的初級階段,不明朗,躊躇而彷徨。但我有勇氣有信心我會成功到達彼岸。最后,文藝的我還是附上一句小詩以激勵自己與各位同仁:千淘萬漉雖辛苦,吹盡狂沙始到金。總會守得雲開見月明!
