Valse2019筆記——弱監督視覺理解


程明明(南開大學):面向開放環境的自適應視覺感知

(圖片來自valse2019程明明老師ppt)

  1. 面向識別與理解的神經網絡共性技術

    • 深度神經網絡通用架構 —— VggNet(ICLR’15)、ResNet(CVPR‘16)、DenseNet(CVPR’17)、DLA(CVPR‘18)Res2Net()富尺度空間的深度神經網絡通用架構

    • 富尺度空間的深度神經網絡通用架構

      網絡結構:

      應用:檢測任務、分類任務、分割任務

  2. 通用視覺基元屬性感知

  3. 關鍵機器學習算法到多種行業應用

  4. 總結

    • 通過引入層內分層遞進殘差鏈接,實現富尺度空間的深度神經網絡通用架構,並通過多任務協同求解提高魯棒性;
    • 通過預先構建顯著性物體檢測、邊緣提取等任務類別無關的基元屬性感知能力,減少具體任務中的數據依賴,實現“舉一反三”;
    • 利用互聯網海量多媒體數據,減少對人工標注數據的依賴,自主地學習目標類別的識別與檢測模型,實現系統智能的自主發育。

葉齊祥(中國科學院大學):從弱監督到自學習視覺目標建模 —— weakly supervised object detection, localization, and instance segmentation

  1. 引子

    • 存在問題:

      有監督的目標檢測和實例分割的主要流程

      (圖片來自valse2019葉齊祥老師ppt)

      從上圖看出,數據集的制作需要對大量數據從不同方面進行標注。

    • 解決方法

      如何實現 “ 圖像數據庫 → 訓練數據集 ”?

      • 人工標注:耗時耗力

      • 弱監督的數據標注 → 弱監督學習:高效低耗

  2. 弱監督學習

    • 相關論文:

      CVPR18: Min-entropy Latent Model (MELM)

      PAMI2019: Recurrent Learning(MELM+RecurrentLearning)

      CVPR19: Continuation Multiple Instance Learning(CMIL)
      ICCV17: Soft Proposal Network(SPN)

      CVPR18:PeakResponseMapping(PRM)

      CVPR19:InstanceActivationMap(IAM)

    • 論文詳解

      問題提出:隱變量學習、多實例學習

            往往無法學習到全局最優結果
      

      解決方法:

      如上圖所示,針對無法得到全局最優問題,提出了convex regularization和continuation optimization兩種方法。

      • continuation optimization(CMIL: Continuation Multiple Instance Learningfor Weakly Supervised object Detection CVPR2019)
      • Recurrent Learning(Min-entropy Latent Model for Weakly Supervised object Detection PAMI2019)
      • soft proposal network(Soft Proposal Network for Weakly Supervised Object Localization ICCV2017)
      • Peak Response Mapping(Weakly Supervised Instance Segmentation using Class Peak Response CVPR2018)
      • learning Instance Activation Maps(Learning Instance Activation Maps for Weakly Supervised Instance Segmentation CVPR2019)
    • 未來發展方向:

      • Beyond regularization and continuation optimization
      • Beyond weakly supervised detection and segmentation
      • Fill the gap of supervised and weakly supervised methods
      • Weakly supervised detection meets X (Self-learning Scene-specific Pedestrian Detectors using a Progressive Latent Model)
        X= Few-shot Active Learning | Online Feedback | Temporal

魏秀參(曠視科技):Weakly-supervised object discovery based on pre-trained deep CNNs

  1. 引子

    Deep learning三駕馬車

    許多可用的預訓練好的深度學習模型

    深度學習模型的訓練還需要大量標記的數據

  2. 圖像檢索(Image Retrieval)

    一般圖像檢索流程:

    (圖片來自valse2019魏秀參老師ppt)

    • 細粒度的圖像檢索(Fine-grained image retrieval)

    • 基於深度學習的圖像檢索(Deep learning for image retrieval)

      • Selective Constitutional Descriptor Aggregation(SCDA

        通過對所有特征圖的加權求和得到最后的響應圖

      • Unsupervised Object Discovery and Co-Localization by Deep Descriptor Transformation(DDT

黃聖君(南京航空航天大學):Cost-Sensitive Active Learning

  1. 引子

    • 一個傳統的有監督學習
    • 有標簽的數據非常重要

    當m越大,表示估計的模型越接近真實模型。

    • 有標簽的數據非常稀少
    • 有標簽的數據非常昂貴:耗時、專業知識人才、耗資
  2. Active Learning —— 可以用更少的標注數據進行學習

    • Cost Sensitive Active Learning

      標記代價 ≠ 查詢數量 (查詢次數越多不代表所查的東西代價越大)

      影響標記代價因素:實例——用於視頻推薦的多視角主動學習(instances ——multi-view active learning for video recommendation)

                    特征——有監督矩陣補全的主動特征獲取(features——active feature acquisition with supervised matrix completion)
       
                    標簽——主動查詢分層多標簽學習(labels——active querying for hierarchical multi-label learning)
       
                    oracles- 積極學習各種不完美的oracles(Oracles——active learning from diverse and imperfect oracles)
      
  3. 影響標記代價因素詳細介紹

    • instances ——multi-view active learning for video recommendation

      視頻推薦:協同過濾(冷門啟動問題)/基於內容的過濾(需要大量數據訓練)

      多視角視頻表示:視覺特征、文本特征、用戶特征、標簽

      motivation:在視頻推薦任務中,文本特征(即評論)獲取需要很大代價,視覺特征不需要人力代價。

      idea: Visual to text Mapping

    • features——active feature acquisition with supervised matrix completion

      問題:現實應用中往往會出現特征丟失現象,通常導致學習性能下降

      motivation: SMC——supervised matrix completion(exploit the label information / Trace-norm for low-rank assumption)

              AFA——Active Feature Acquisition(minimize the feature acquisition cost / contribute to both recovering missing entries and classification)
      

      idea:(這部分設計太多專業基礎知識,不太明白)

    • labels——active querying for hierarchical multi-label learning

      標簽有層次結構

      平衡成本和信息

    • Oracles——active learning from diverse and imperfect oracles

      不同的oracles有不同的價格

      同時選擇instance和oracle

      准確而便宜的標簽

  4. 總結

    主動學習:用最少的標簽代價訓練一個高效的模型

    代價和不同的 instances/features/labels/oracles 有關系

魏雲超(UIUC):Towards Weakly Supervised Object Recognition and Scene Parsing

  1. Self-Erasing Network for Integral Object Attention
  2. Weakly Supervised Scene Parsing with Point-based Distance Metric Learning


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM