https://mp.weixin.qq.com/s/GS5A3BQY72qDuhCXoZlQWg
計算機視覺世界三大頂會之一的ICCV 2021論文接收結果出爐!本次大會收到來自全球共6236篇有效投稿,最終有1617篇突出重圍被錄取,錄用率約為25.9%。此次ICCV 2021接收的論文分為檢測、分割、跟蹤、視覺定位、底層圖像處理、圖像視頻檢索、三維視覺等多個方向。本次騰訊優圖實驗室共有17篇論文被收錄,其中Oral論文2篇,涵蓋跨模態檢索、分割、行人識別、神經網絡、人群計數、車輛識別、物體識別、視頻偏好推理、多標簽識別等前沿領域。
▶️ 以下為入選論文:
01
基於Wasserstein耦合圖學習的跨模態檢索
Wasserstein Coupled Graph Learning for Cross-Modal Retrieval
圖在跨模態圖像文本的理解中發揮着重要作用,因為圖可以表征圖像文本的內在結構,而這種結構對於跨模態相似性的度量具有很好的魯棒性。在本文中,我們提出了一種基於Wasserstein耦合圖學習的方法來處理跨模態檢索任務。首先,我們分別根據兩個輸入的跨模態樣本構建圖,並通過相應的圖編碼器提取魯棒特征。然后,構建一個Wasserstein耦合字典用於進一步的特征學習,其中該字典包含多組對應的圖鍵值,並且每個鍵值對應一種模態。基於該耦合字典,可以通過Wasserstein圖嵌入的方式將輸入圖轉換到字典空間中實現相似性度量。所提出的Wasserstein圖嵌入方法通過最優傳輸捕獲輸入圖與每個對應鍵值之間的圖相關性,從而可以很好地表征圖之間的結構關系。為了進一步促進圖的判別性學習,我們對耦合字典的圖鍵值專門定義了一個基於Wasserstein度量的判別損失函數,該損失函數可以使對應的鍵值更加緊湊,非對應的鍵值更加分散。實驗結果證明了我們所提出的方法的有效性。
02
簡筆畫監督語義分割推理
Scribble-Supervised Semantic Segmentation Inference
本文提出了漸進分割推理框架(PSI)來解決簡筆畫監督的語義分割任務。借助於潛在的上下文依賴性,我們設計封裝了上下文模式傳播和語義標簽傳播這兩條主要線索來增強並改善弱監督像素級分割結果。在上下文模式傳播中,不同細粒度的上下文模式互相關聯並通過圖模型傳遞模式信息,以此來增強像素標簽預測的置信推理。進一步地,依賴於已估計像素的高置信度,初始標注點的標簽信息通過自適應學習策略擴散傳播至圖上的其他區域。上下文模式傳播和語義標簽傳播這兩條線索最終在像素級標簽推理中被建模成一個閉環的更新過程。大量的實驗驗證了我們提出的PSI框架的有效性,同時該方法也在兩個公開的簡筆畫分割數據集上取得了優越的性能。
03
深度神經網絡結構解耦
Architecture Disentanglement for Deep Neural Networks
🔽 此篇論文被收錄為Oral
理解深度神經網絡的內部機理對神經網絡提供可信的應用十分重要。現有的研究主要聚焦於如何將具體的語義與單神經元或單層相關聯,忽略了網絡的整體推理過程的解釋。本文提出了神經網絡解耦這個概念,旨在將具體語義與解耦的子結構相關聯,從而理解網絡從輸入到輸出的整體推理過程。本文實驗揭示了神經網絡可以按照任務被拆解成子結構,並且最高層語義並不一定出現在神經網絡最深層。最后,本文探討了相似子結構是導致神經網絡分類錯誤的原因之一。
04
基於並列檢測分割學習的弱監督實例分割
Parallel Detection-and-Segmentation Learning for Weakly Supervised Instance Segmentation
本文從自頂而下和自底向上的實例分割方法啟發,為弱監督實例分割任務提出一種統一平行檢測分割的學習框架。特別地,檢測模塊和常見的弱監督目標檢測一樣,而分割模塊采用自監督學習來學習類別無關的前景分割,然后再通過自訓練來逐步獲得特定類別的分割結果。最后,本文在多個數據集上驗證了該算法的有效性。
05
全部遮擋:行人重識別的遮擋感知掩碼網絡
Occlude Them All: Occlusion-Aware Mask Network for Person Re-identification
隨着深度學習時代的到來,行人重識別(ReID)取得了顯着的成就。然而,大多數方法僅解決了基於完整圖片的行人重識別問題。但在真實世界的場景常常涉及被遮擋的行人,這類行人圖片提供部分視覺外觀,所以降低了 ReID 的准確性。一種常見的策略是通過輔助模型定位可見的身體部位,但是輔助模型的訓練數據和待解決的數據存在領域偏差等,效果不佳。為了避免在遮擋ReID問題 中使用額外的有問題的模型,我們提出了 OcclusionAware Mask Network (OAMN)。該方法提出了一個基於注意力機制的的掩碼模型,它需要有遮擋標簽的數據來指導訓練,為此,我們提出了一種新的適用於遮擋問題的數據增強方案,該方案可為任何全身數據集生成多樣化且精確標記的遮擋。我們所提出的方案比現有的策略更適合包含有限種遮擋類型的現實世界情景。我們還提供了一種新穎的遮擋統一方案。上述三個模型組件使現有的注意力機制能夠准確地捕捉各種遮擋情形下的身體部位。我們在多個行人重識別的benchmarks上進行了各種綜合實驗,證明了OAMN方法優於現有的SOTA方法。
06
修正黑夜的怪異:
夜間場景高效自監督的單目深度估計方法
Regularizing the Night-time Weirdness: Efficient Self-supervised Monocular Depth Estimation in the Dark
單目深度估計旨在從單張圖像或單目視頻中預測深度信息。近來一些自監督方法在KITTI和Cityscapes上獲得了出色的效果。然而,在更具挑戰性的黑夜場景中,由於低能見度和極端光照導致的弱紋理和幀間不一致性,這些方法往往不能得到可用的結果。為了處理這個問題,本文提出了一個新的框架:首先提出基於先驗的正則化方法以學習深度信息的先驗分布,避免出現異常結果;其次,提出了映射一致的圖像增強模塊以提升圖像可見度和對比度,同時保持幀間一致性;最后,提出了基於統計的掩膜策略以去除弱紋理區域在訓練中帶來的干擾。實驗結果證明了本文方法的有效性,同時在兩個常用的黑夜數據集上獲得了當前最優的效果。
07
基於耦合語義注意力的弱監督目標定位
TS-CAM: Token Semantic Coupled ttention
Map for Weakly Supervised Object Localization
弱監督目標定位是指僅根據圖像層面的類別標簽學習目標位置的任務。基於卷積神經網絡 (CNN)的分類模型往往僅會激活目標的局部判別區域,而忽略完整的目標范圍,稱為局部激活問題。在這篇文章中,我們認為局部激活問題是由於CNN的內在特性導致。CNN由一系列卷積操作組成,導致模型僅具有局部的感受野,無法獲取長距離的特征依賴性。基於此,我們提出我們提出基於Transformer的耦合語義類別激活圖(TS-CAM)方法,借助自注意力機制提取長距離特征相似性。TS-CAM 首先將圖像分割為一系列子塊,通過位置編碼學習不同子塊間全局的注意力。之后,對每個子塊進行重新排列得到得到類別語義圖。最后,融合模型學習的全局注意力圖與類別語義圖得到類別激活圖。在 ILSVRC/CUB-200-2011 數據集上的實驗表明,TS-CAM 的性能超過其他基於CNN-CAM結構的方法約 7.1%/27.1%,達到SOTA。
08
基於異質關系互補的車輛重識別方法
Heterogeneous Relational Complement for Vehicle Re-identification
在車輛重識別任務中,難點是從不同角度的攝像頭所拍攝的圖片中,准確地尋找出相同的車輛,而要有效地解決該問題,需要網絡能夠學習到車輛在不同角度的不變特征。為了能夠獲得這個魯棒的表征,本文提出一種新型的異質關系互補網絡(HRCN),該網絡將特定區域特征和跨層特征作為增補特征,來增強高層表達。考慮到這些特征存在異質性,各個特征之間的分布特征以及語義信息都不盡相同,為此本文在HRCN中設計一個圖關系模塊,將這些異質特征嵌入到統一的特征空間。此外,本文提出一種新的評價指標Cross-camera Generalization Measure (CGM),相較CMC和mAP,CGM具備更強的位置敏感性以及更好的跨攝像頭泛化懲罰。實驗結果表明HRCN在VehicleID和VeRi-776數據集上均達到state-of-the-art。
09
重新思考人群中的計數和定位問題:
一種完全基於點的全新框架
Rethinking Counting and Localization in Crowds: A Purely Point-Based Framework
🔽 此篇論文被收錄為Oral
相比僅僅估計人群中的總人數,在人群中定位每個個體更為切合后續高階人群分析任務的實際需求。但是,已有的基於定位的解決方法依賴於某些中間表示(如密度圖或者偽目標框)作為學習目標,這不光容易引入誤差,而且是一種反直覺的做法。本文提出了一種完全基於點的全新框架,可同時用於人群計數和個體定位。針對基於該全新框架的方法,我們不滿足於僅僅量化圖像級別的絕對計數誤差,因此我們提出了一種全新的度量指標即密度歸一化平均精度,來提供一個更全面且更精准的性能評價方案。此外,作為該框架一個直觀解法,我們給出了一個示例模型,叫做點對點網絡(P2PNet)。P2PNet忽略了所有冗余步驟,直接預測一系列人頭點的集合來定位圖像中的人群個體,這完全與真實人工標注保持一致。通過深入分析,我們發現實現該方法的一個核心策略是為預測候選點分配最優的學習目標,並通過基於匈牙利算法的一對一匹配策略來完成了這一關鍵步驟。實驗證明,P2PNet不光在人群計數基准上顯著超越了已有SOTA方法,還實現了非常高的定位精度。
10
從異質到一致:
深入研究人群計數中的計數區間划分問題
Uniformity in Heterogeneity: Diving Deep into Count Interval Partition for Crowd Counting
近期,人群計數任務中學習目標不准確的問題得到了日益的關注。受以往少數工作的啟發,我們摒棄了直接預測計數值本身的思路,而是通過預測計數值所在的預設區間來解決這個問題。然而,不合適的區間划分會使得來自不同計數區間的圖像塊所貢獻的計數誤差非常不均衡,並進一步導致較差的計數精度。因此,我們提出了一個新穎的計數區間划分標准叫做均勻誤差准則(UEP),該准則可以使得來自不同計數區間的計數誤差貢獻盡可能相等從而來最小化預測風險。進一步地,為了緩解計數值量化過程中不可避免引入的數值量化誤差,我們提出了平均計數代理准則(MCP)。MCP准則為每個計數區間選取最優的計數代理值來表示所有該區間的樣本在推理過程中的預測計數值,這使得圖像級別的整體期望離散化誤差可被忽略不計。據我們所知,本工作是第一個深入探究此類區間分類任務,並且針對其區間划分問題給出有效解決方案的。根據以上所提的可被理論證明的准則,我們設計了一個簡單高效的模型,稱為UEPNet,該模型在多個權威數據集上達到了SOTA的精度。
11
用於決策黑盒模型的自適應歷史驅動攻擊
Adaptive History-driven Attack for Decision-based Black-box Models
基於決策的黑盒攻擊是指在只有目標模型的 top-1 標簽可用時構造對抗樣本。一種常見的做法是從一個大的擾動開始,然后用一個確定的方向和一個隨機的方向迭代地減少它,同時保持它的對抗性。由於每次查詢獲取的信息有限和方向采樣效率低下,很難在有限的查詢次數內獲得足夠小的擾動。為了解決這個問題,我們提出了一種新的攻擊方法,稱為自適應歷史驅動攻擊(AHA),它從所有歷史查詢中收集信息作為當前采樣的先驗,以提高性能。此外,為了平衡確定性方向和隨機方向,我們根據實際幅度減少與預期幅度減少的比率動態調整系數。這種策略提高了優化過程中查詢的成功率,讓對抗樣本沿着決策邊界快速移動。我們的方法還可以與子空間優化(如降維)相結合,以進一步提高效率。在 ImageNet 和 CelebA 數據集上進行的實驗表明,在相同數量的查詢下,我們的方法平均降低了至少 24.3% 的擾動幅度。最后,我們通過對流行的防御方法和 MEGVII Face++ 提供的APIs進行評估來證明我們方法的實際效果。
12
高質量解耦顯著對象檢測
Disentangled High Quality Salient Object Detection
近年來,隨着數字設備的發展,越來越多的計算機視覺任務需要處理高清圖像,比如視覺顯著性檢測任務。現有的顯著性檢測方法處理高清圖片時,主要會面臨兩個問題。第一個問題是現有的方法往往無法同時精確捕捉高清圖片的語義信息和邊界細節。為了解決這個問題,我們將高清顯著性檢測任務解耦為低分-分類和高分-回歸任務。在低分辨率階段,我們提出LRSCN網絡充分捕捉圖片的語義信息;在高分辨率階段,我們提出HRRN回歸得到精確的邊界細節。第二個問題是現有的高清顯著性檢測算法需要額外的高清標注數據訓練網絡,因而需要較大的標注代價。為了解決這個問題,我們在訓練階段使用uncertainty loss,因而不需要額外的高清訓練數據訓練HRRN。我們提出的方法在HRSOD-TE,DAVIS-S兩個高清數據測試集,以及DUTS-TE,SOC等6個低分辨率測試數據集上都達到了SOTA的效果。
13
基於雙路關系互補的多標簽識別方法
Transformer-based Dual Relation Graph for Multi-label Image Recognition
多標簽識別的主要目標是同時識別一幅圖像中的多個對象。現有的大多數工作主要通過學習標簽共現依賴關系從而增強特征的語義表達,而忽略了圖像中多個物體間的空間依賴關系。對此,本文提出一種基於Transformer的雙路互補關系學習框架來聯合學習空間依賴與共現依賴。針對空間依賴,該方法提出跨尺度Transformer建模長距離空間上下文關聯;針對共現依賴,該方法提出類別感知約束和空間關聯引導,基於圖神經網絡聯合建模動態語義關聯,最后聯合這兩種互補關系進行協同學習得到魯棒的多標簽預測結果。實驗結果表明,該方法在經典多標簽識別數據集MS-COCO 和VOC 2007上均超過SOTA。
14
基於偏好推理的個性化精彩視頻檢測
PR-Net: Preference Reasoning for Personalized Video Highlight Detection
個性化精彩視頻檢測旨在根據用戶的喜好將長視頻縮短為有趣的時刻,這最近也引起了社區的關注。目前的方法將用戶的歷史作為整體信息來預測用戶的偏好,但忽略了用戶興趣的內在多樣性,導致偏好表示模糊和無法解釋的預測。在本文中,我們提出了一個簡單而有效的偏好推理框架(PR-Net),顯式地將不同的興趣考慮在內,以進行具有可行解釋的幀級精彩預測。具體來說,對於每個輸入幀,我們通過基於注意力機制的歷史精彩片段融合來生成輸入相關的用戶偏好。此外,為了防止用戶歷史信息不全等問題,我們將由用戶特定的偏好和學習得到的通用偏好融合成了綜合的偏好特征,從而實現了自適應地支持通用精彩視頻檢測。最后,我們通過計算查詢幀與該用戶的綜合偏好及非精彩偏好特征之間的語義相似度來預測其是否屬於精彩幀的程度。此外,為了緩解由於標注不完整造成的歧義,我們提出了一種新的雙向對比損失,以確保嵌入空間的緊湊性和可微性。通過這種方式,我們的方法顯着優於最先進的方法,平均准確度精度相對提高了 12%。
15
從學習中知道哪里可見:
針對遮擋行人重識別的一種可見度感知方法
Learning to Know Where to See: A Visibility-Aware Approach for Occluded Person Re-identification
行人重識別在近年來已經取得了明顯的進步。然而,遮擋現象對最近的行人重識別方法依然是個常見且具有挑戰性的任務。目前一些主流方法利用額外信息(比如,人體姿態信息)來判斷人體可見部位,從而緩解遮擋問題。雖然這些方法取得明顯的進步,但是他們嚴重依賴於細粒度的額外信息,對額外信息中存在的估計錯誤敏感。在本文中,我們證實了如果額外信息變得稀疏或者有噪聲時,現存的方法性能是會出現下降的。因此,我們提出了一種簡單但有效的方法,該方法對稀疏和有噪聲的姿態信息是魯棒的。我們將姿態信息離散化為人體部分的可見度標簽,這可以降低遮擋區域的影響。我們在實驗中證明了我們的方法能夠更有效和魯棒地利用姿態信息。此外,我們的方法能夠很容易地嵌入到大多數行人重識別方法中。相關的實驗證明了我們的算法達到了目前的領先水平。
16
Ask&Confirm:
不完整描述下跨模態檢索的主動細節豐富
Ask&Confirm: Active Detail Enriching for Cross-Modal Retrieval with Partial Query
近年來,基於文本的圖像檢索取得了長足的進步。然而,現有方法的性能在現實生活中會受到影響,因為用戶可能會提供對圖像的不完整描述,這通常會導致結果充滿了符合不完整描述的誤報。在這項工作中,我們引入了部分查詢問題並廣泛分析了它對基於文本的圖像檢索的影響。以前的交互式方法通過被動地接收用戶的反饋來迭代地補充不完整的查詢來解決這個問題,這既耗時又需要大量的用戶努力。相反,我們提出了一種新穎的檢索框架,該框架以詢問和確認的方式進行交互過程,其中 AI 主動搜索當前查詢中缺少的判別細節,而用戶只需要確認 AI 的提議。具體來說,我們提出了一種基於對象的交互,使交互檢索更加用戶友好,並提出了一種基於強化學習的策略來搜索有區別的對象。此外,由於難以獲得人機對話數據,全監督訓練通常是不可行的,因此我們提出了一種弱監督訓練策略,除了文本圖像數據集之外,不需要人工標注的對話。實驗表明,我們的框架顯着提高了基於文本的圖像檢索的性能。
17
為任意視角下的3D物體識別學習具有空間感知能力的典范視角表征
Learning Spatially-Aware Canonical View Representation for 3D Shape Recognition with Arbitrary Views
為使多視角3D物體識別更切合實際場景,這篇工作專注於任意視角下的物體識別,即視角位置與個數任意給定的情況;為解決任意視角帶來的新挑戰,我們提出一種具有空間感知能力的典范視角表征;我們首先將來自任意視角的圖像特征使用最優傳輸與一組可學的參考視角特征對齊,由此得到一組固定數量的典范視角特征;隨后我們將這些對齊的典范視角特征進行聚合,得到一個魯棒的3D物體表征用於識別;我們在此提出一種空間感知損失,約束典范視角特征能被離散地嵌入於歐式空間的各個象限;在ModelNet40、ScanObjectNN與RGBD數據集中的實驗結果表明,我們的方法不僅在傳統的固定視角情況下性能優秀,而且在更有挑戰的任意視角情況下相比其他方法有顯著的性能提升。