VALSE2019總結(3)-基於視覺和常識的深度推理


3. 基於視覺和常識的深度推理

  • 幾乎沒啥干貨

3.1 視覺場景理解與描述與描述中的物體關系 (shuqiang jiang, CAS)

  • VAD中也涉及到對於不同場景的理解,也許對我有用
  1. 不同距離下的圖像表現

    • 場景抽象性:場景是由不同物體及局部區域的組合,相比較物體圖像,場景圖像更加抽象,更難以識別和理解
    • 比如:(1)常規:ImageNet (2)復雜:COCO, Visual Genome(有一張圖)
  2. 視覺場景中的多物體

  3. 關於物體

    • 核心問題:何為物體?發現物體;理解物體;利用物體;描述物體與場景;
  4. 關於物體間關系

    • 同一圖像:空間關系,動作關系,屬含關系,共生關系,xx關系
    • 不同圖像:物體的層次有:實例級,物體級,類別級,知識級,描述級
  5. 四個經典任務:

    • 同一圖像
      • 場景識別:物體間的空間位置關系
      • 圖像語言描述:物體之間的的上下文關聯關系
    • 不同圖像
      • 圖像搜索:實例級 partial duplicate (去重?)
      • 共同物體檢測:不知名的相同物體
  6. 場景:圖像中存在的高層概念信息

    • 場景識別的潛在應用
      • 照片自動管理
      • 圖像的全面理解
    • 挑戰與難點
      • 場景抽象性
      • 類內差異性
      • 類內物體分布多樣性
      • 類間相似性
    • 作者的一些工作
      • 直接貼圖,有時間再閱讀完善
      • 一個不錯的思想:利用物體關系進行場景識別
        • 場景內的物體分布可輔助場景識別(新增OOR module, object-object relations)
        • 物體間的共生會混淆場景識別
        • RGB-D的圖像數據能更好的表示物體的空間信息
      • 基於空間關系建模的場景識別框架
        • 多種空間關系定義:物體間方向、距離、尺寸的關系
        • 多種空間關系建模:COOR(空間關系特征矩陣建模),SOOR(基於物體與空間關系的圖題描述)
        • 具體結構見一張圖片
  7. 利用物體上下文信息的語言描述

    • 圖片
  8. 基於場景圖譜的圖像內容描述

    • 圖片
  9. 圖像共同物體檢測

    • 圖片
    • 2D image中對一個關於物體的定義:
      • 有一個清晰的閉合曲線邊界
      • 與周圍有不同的外觀
      • 在該物體定義的區域內是突出顯著的
    • 物體的概念體系:
      • 類別概念分為:高層,中層(通用物體檢測,object detection),實例層
  10. 總結:

    • 物體關系:同一張圖像內部不同物體的關系,不同圖像之間的物體間關系
    • 利用物體關系來輔助計算機視覺相關任務:場景識別、圖像搜索、語言描述、共同物體檢測
  11. 一些圖片

3.2 Towards X visual reasoning (hanwang zhang, NTU)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM