3. 基於視覺和常識的深度推理
- 幾乎沒啥干貨
3.1 視覺場景理解與描述與描述中的物體關系 (shuqiang jiang, CAS)
- VAD中也涉及到對於不同場景的理解,也許對我有用
-
不同距離下的圖像表現
- 場景抽象性:場景是由不同物體及局部區域的組合,相比較物體圖像,場景圖像更加抽象,更難以識別和理解
- 比如:(1)常規:ImageNet (2)復雜:COCO, Visual Genome(有一張圖)
-
視覺場景中的多物體
-
關於物體
- 核心問題:何為物體?發現物體;理解物體;利用物體;描述物體與場景;
-
關於物體間關系
- 同一圖像:空間關系,動作關系,屬含關系,共生關系,xx關系
- 不同圖像:物體的層次有:實例級,物體級,類別級,知識級,描述級
-
四個經典任務:
- 同一圖像
- 場景識別:物體間的空間位置關系
- 圖像語言描述:物體之間的的上下文關聯關系
- 不同圖像
- 圖像搜索:實例級 partial duplicate (去重?)
- 共同物體檢測:不知名的相同物體
- 同一圖像
-
場景:圖像中存在的高層概念信息
- 場景識別的潛在應用
- 照片自動管理
- 圖像的全面理解
- 挑戰與難點
- 場景抽象性
- 類內差異性
- 類內物體分布多樣性
- 類間相似性
- 作者的一些工作
- 直接貼圖,有時間再閱讀完善
- 一個不錯的思想:利用物體關系進行場景識別
- 場景內的物體分布可輔助場景識別(新增OOR module, object-object relations)
- 物體間的共生會混淆場景識別
- RGB-D的圖像數據能更好的表示物體的空間信息
- 基於空間關系建模的場景識別框架
- 多種空間關系定義:物體間方向、距離、尺寸的關系
- 多種空間關系建模:COOR(空間關系特征矩陣建模),SOOR(基於物體與空間關系的圖題描述)
- 具體結構見一張圖片
- 場景識別的潛在應用
-
利用物體上下文信息的語言描述
- 圖片
-
基於場景圖譜的圖像內容描述
- 圖片
-
圖像共同物體檢測
- 圖片
- 2D image中對一個關於物體的定義:
- 有一個清晰的閉合曲線邊界
- 與周圍有不同的外觀
- 在該物體定義的區域內是突出顯著的
- 物體的概念體系:
- 類別概念分為:高層,中層(通用物體檢測,object detection),實例層
-
總結:
- 物體關系:同一張圖像內部不同物體的關系,不同圖像之間的物體間關系
- 利用物體關系來輔助計算機視覺相關任務:場景識別、圖像搜索、語言描述、共同物體檢測
-
一些圖片