【跨模態智能分析】人物關系檢測、指代表達、指代分割


主要內容來自於 北京航空航天大學 劉偲 老師在 CSIG 雲講堂的報告《跨模態智能分析》

人物交互關系檢測:Parallel point detection and matching

近年來,在目標檢測和識別領域取得了較大進展。 但是,要了解場景中的情況,還需要認識到人類如何與周圍物體互動。比如下面中間的圖,有一個 couch,還有很多人,就知道這些人和 couch 的關系是 sit on。

傳統方法都是采用 two-stage 的方法,先用 faster-rcnn 檢測出來很多個 bounding box,然后把任意兩個 box 配對,就有 C(n^2) 個 pair, 然后把所有的 pair 送到一個分類網絡中,判斷這些 box 之間是不是有關系?如果有關系,是哪一種關系?

但這樣的話,就帶來一個挑戰問題:算法復雜度高,無法實習應用。

因此,提出了下面的方法:

PPDM: Parallel point detection and matching for real-time human-object interaction detection. CVPR 2020.

這個方法主要是提出了一個 interaction point,就是下圖中的綠點,同時可以定位到主語和賓語。這就是 point detection branch,相當於定位到三個點。

第二個階段,是 point matching branch。對這個圖來說,可能有多個人,可能有多個球,這樣就要確認到底是哪個人在打哪個球,把對應的人和球找到。

方法框架和常規的方法不一樣,分為兩個並行的 branch,上面分支是點檢測,下面分支是點匹配,兩個 branch 是可以並行的,因此,可以達到近實時的處理效果。

下圖是一個實驗結果,縱軸是精度,橫軸是每張圖片的耗時,可以看到,該方法的精度是非常高的,同時速度也是最快的。這個方法也是第一個可以做到實時的方法。

下圖是在 HICO-DET數據集上的一個結果,可以看出,該方法的精度非常高,同時,速度可以達到每秒37幀。

指代表達

A Real-time cross-modality correlation filtering method for referring expression comprehension, CVPR 2020

指代表達是要做下面的事,提供一句話“拿着白色飛盤的紅衣男子”,然后在圖中畫一個框,把這個人找到。這個和一般的目標定位不一樣,因為里面有“紅色衣服”這樣的屬性,還有“拿着白色飛盤”這樣的動作,要深刻的理解圖像才能找到對象,這個任務會非常難。

這個方法是怎么做的呢?首先有一個文本的理角,有一個 expression encoder,然后得到一個文本的特征。然后對圖像提取特征,這里是一個非常 general 的做法,就是提取 multiscale 的特征。

接着把本文的特征看作一個 kernel ,來和圖像的 feature map 做卷積,最后得到一個輸出,得到 woman 在哪里。然后通過前面的圖像信息來計算 size 和 offset。得而得到最終的結果。

下面是在各個數據集上的實驗結果對比,可以看到,該方法是大幅的超越了 state-of-the-art。

下面是視化的實驗結果,可以看到檢測的結果還是非常神奇。綠色的是 ground truth,綠色的是本方法的結果,藍色的是 MAttNet 的結果。

后續工作:指代分割

Referring image segmentation via cross-modal progressive comprehension, CVPR 2020

Linguistic structure guided context modeling for referring image segmentation, ECCV 2020

是在上一個工作的基礎上做一個分割。

從動機上來看,主要是依照人類的做法。首先,人會在圖像中找到一些實體,比如說人,飛盤等等。第二步,做一個關系推理,知道其他人不是我們的目標,只有拿着白色飛盤的人是我們的目標。相當於“飛盤”給人一個強化,最后得到最終結果。

該方法的 framework 如下。首先提取文本特征,然后,提取多尺度的圖像特征,同時還會結合 “坐標特征”。

接下來是 entity perception,就是定位到所有的實體。接下來是進行關系推理,利用動作來強化我們感興趣的目標。這里相當於是模擬了人的一個感知過程。

最后,text-guided feature exchange 是不同層特征的融合,這里融合主要是可以綜合利用不同層的信息,最后得到一個分割的結果。

因為關系的推理是非常重要的一環,下面重點說下這部分:

entity perception: 視覺特征 \(X\) 和文本特征 \(q\) 使用雙線性融合。

relation-aware reasoning:多模態全連接的圖 \(G\) 被構建起來,每一個節點對應了圖像中的一個區域。使用 GCN 最重要的是兩點,你的點是怎么定義的,你的邊及權重是如何定義的。每一個目標就是一個節點,然后使用一個 attention 機制,來強調動作。

該方法在4個數據集上,都取得到 state-of-the-art 的效果。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2026 CODEPRJ.COM