1. 弱監督視覺理解
1.1 弱監督學習簡介
- 不完全監督:只有一部分訓練數據具備標簽;
- 不確切監督:訓練數據只具備粗粒度標簽;
- 不准確監督:給出的標簽並不總是真值;(標簽有噪聲?)
- 弱監督的含義:弱監督給出的標簽會在某種程度上弱於我們面臨的任務所要求的輸出。
- 研究背景:
- 數據集很重要:現階段CV領域的大多數問題還是依賴於特定的數據集進行訓練和測試評估的;
- 標注成本很大:高質量額圖像標注為我們進行圖像理解提供了方便,但獲取精確的標注是非常困難和耗時的;
- 研究方法難選:深度神經網絡共性技術,視覺基元屬性感知。
1.2 VALSE2019中弱監督的新方法
1.2.1 mingming chen (NKU)
-
Motivation:
當前各種深度網絡的進步得益於網絡多尺度信息綜合能力的提升
-
報告主要內容:
- 富尺度空間神經網絡架構:多任務協同求解,魯棒性提高;
- 顯著性物體檢測:預設基元屬性感知能力,減少數據依賴;
- 互聯網大數據自主學習:減少人工標注,自動學習。
-
富尺度空間神經網絡是什么?
- 網絡結構:一個富尺度空間的深度神經網絡通用架構,在每一個基礎網絡上,對圖像進行深度(?)層上的分割,然后通過不同尺度的處理再結合到輸出。
- 學習目標:富尺度指代通過CNN學習圖像的位移、平移、形變等特性;
- 設計基准:金字塔結構;空間池化;殘差學習。
- papers:
- Res2Net: A new Multi-scale Backbone Architecture, TPAMI2019 (in submission)
-
顯著性物體檢測分類:
- 3種任務:RGBD顯著性物體檢測,邊緣檢測,視覺注意力機制若監督語義分割
- 基於屬性預先構建:預先構建顯著性物體檢測、邊緣提取等 任務無關的基元屬性 感知能力,減少具體任務中的數據依賴,實現“舉一反三”
- 通用視覺基元屬性感知方法分類
- papers:
- Deeply supervised salient object detection with short connection (ECCV2018)
-
互聯網大數據自主學習:
利用互聯網海量多媒體數據,減少對人工標注數據的依賴,自主學習目標類別的識別與檢測模型,實現系統只能的自主發育
1.2.2 qixiang ye (CAS)
-
現狀
- 目前的object detection / segmentation存在的問題:需要為每一個任務制定詳細而具體的標注,成本極大
- 一種解決思路:
- 粗粒度的弱監督標記:比如,只給目標物體上畫一條線,只在目標物體上打一個點,僅僅告訴模型一系列圖片中包含什么而不給位置,讓模型自己學習找到這些目標。(瞬間想到我的VAD,CVPR2018-UCF,那個 video-level labeling)
-
papers:
-
-
整理如下:
- Min-entropy Latent Model for Weakly Supervised object Detection, (CVPR2018)
- CMIL: Continuation Multiple Instance Learning for Weakly Supervised Detection (CVPR2019 Oral)
- SPN: Soft Proposal Network for Weakly Supervised Object Localization (ICCV2017)
- Learning Instance Activation Maps for Weakly Supervised Instance Segmentation (CVPR2019)
- PAMI2019: Recurrent Learning(MELM+RecurrentLearning)
- PeakResponseMapping(PRM) (CVPR2018)
-
上述論文思路
-
隱變量學習、多實例學習,但是有個問題:一般無法找到全局最優解
-
對應的solution如下:
-
上面幾篇論文都是對上面兩種優化方式的具體解法,摘選如下:
-
-
-
未來發展方向:
- Beyond regularization and continuation optimization
- Beyond weakly supervised detection and segmentation
- Fill the gap of supervised and weakly supervised methods
- Weakly supervised detection meets X (Self-learning Scene-specific Pedestrian Detectors using a Progressive Latent Model)
X= Few-shot Active Learning | Online Feedback | Temporal
-
-
Towrad Self-Learning
-
1.2.3 sheng jun huang (NHU)
-
Active Learning
-
傳統的有監督學習
-
問題在哪里?
大量的數據標記成本巨大,有一些甚至是不可得的(比如醫院的患者信息,異常檢測的異常樣本,幾年才發生一次異常)
-
Active Learning
-
-
Cost Sensitive Active Learning
- goal: train an effective model with least labeling cost
- 細致定義 least 就是 Active Learning 的 核心
-
The cost is sensitive to (不是簡單的 number of queries)
-
Instances | Features | Labels | Oracles
-
一個應用舉例:用於視頻推薦的多視角主動學習(multi-view active learning for video recommendation)
-
實例(instance):用於視頻推薦的多視角主動學習
特征(feature):有監督矩陣補全的主動特征獲取
標簽(label):主動查詢分層多標簽學習代理(oracles):積極學習各種不完美的oracles
-
-
-
詳細分析:
-
instances ——multi-view active learning for video recommendation
視頻推薦:協同過濾(冷門啟動問題)| 基於內容的過濾(需要大量數據訓練)
多視角視頻表示:視覺特征、文本特征、用戶特征、標簽
motivation:在視頻推薦任務中,文本特征(即評論)獲取需要很大代價,視覺特征不需要人力代價。
idea: Visual to text Mapping
-
如下圖所示,
-
-
features——active feature acquisition with supervised matrix completion
問題:現實應用中往往會出現特征丟失現象,通常導致學習性能下降
motivation: SMC——supervised matrix completion(exploit the label information / Trace norm for low-rank assumption)
-
如下圖,
-
-
labels——active querying for hierarchical multi-label learning
標簽有層次結構
平衡成本和信息
-
如下圖,
-
-
Oracles——active learning from diverse and imperfect oracles
不同的oracles有不同的價格
同時選擇instance和oracle
准確而便宜的標簽
-
如下圖,
-
-
-
-
Summary:
-
Active Learning: train an effective model with least labeling cost
-
The cost may be sensitive to different instances/features/labels/oracles
-
Key issues in active learning
-
Selection Criterion
- which instance to select ?
-
Query Type
- what information to query ?
-
Imperfect Oracles
- noisy or unavailable oracles
-
Huge Unlabeled Data
- fast selection and training
-
如下圖,
-
-
我之前關注過的關於 Active Learning的 zhihu link: link-1 link-2, link-3
-
1.2. 4 yunchao wei (UIUC)
-
引子:
-
Towards Weakly Supervised Object Segmentation & Scene Parsing
-
Revisit Adversarial Erasing
-
Object Region Mining with Adversarial Erasing (CVPR2017)
-
Adversarial Complementary Learning (Zhang CVPR2018)
-
Issue:Over Erasing: The Failure Case of Adversarial Erasing
- yc, w的solution: Self-Erasing Network
-
如下圖,
-
-
-
一篇論文:
-
Weakly Supervised Scene Parsing with Point-based Distance Metric Learning (yunchao wei, CVPR)
-
Weakly supervised methods for scene parsing
-
image-level labeling -> Box-level -> scribble-level -> point-level
如圖,
-
wekaly的體現: point-based labeling than pixel-based labeling
-
motivation: How to utillze limited annotation? 答:Cross-Image semantic similarity
如圖,
-
-
論文方法overview
-
Point-based distance metric learning (PDML)
-
point supervision (PointSup)
-
Online extension supervision(ExtendSup)
-
如圖,
-
-
Conclusion
-
1.3 弱監督學習的啟發
-
葉齊祥的弱標記:
只給目標物體上畫一條線,只在目標物體上打一個點,僅僅告訴模型一系列圖片中包含什么而不給位置,讓模型自己學習找到這些目標。
-
魏雲超的擦除思想:
作者嘗試直接使用預訓練模型,找原圖【使得預訓練模型最后一個卷積層激活較大】的區域,然后發現在Image-Net上預訓練模型雖然有很好的分類能力,但最后的激活層往往來自於原圖中最有判別能力的部分而不是全部物體。舉例:雖然預訓練模型能將狗分類成狗,但是使得最后輸出“狗”這個維度的激活最大的可能僅是狗頭、狗腿這些比較discriminative的區域,而不是整個狗的instance segmentation,於是作者提出,將原圖中最disciminative的區域擦掉(erase),然后再訓練模型,如此反復,直到模型最后的激活來源於整個狗。
-
一些idea:
-
卷積激勵的顯著分布估計,與前文所說的pre-trained model一樣,對原圖使得最后激活大的區域進行分析
-
通過對抗生成網絡生成邊界周圍的樣本來得到更細粒度的分類邊界
-
為了衡量圖像和文本的相似度,將圖像編碼到文本的特征空間中,或者將文本編碼到圖像的特征空間中,以此衡量,而不是將二者編碼到第三個特征空間中衡量
-
設計好的loss是發表論文的好方法
-
-
待看blog: