文獻閱讀_image caption_IEEE2021_Caption Generation From Road Images for Traffic Scene Modeling


preface(me)

不堆數據和算力的情況下,大概是要做特定場景的。Traffic scene 相對於與課題貼合,並且有一定數量的文獻,從這個角度切入看看有沒有說法。

Abstract&Conclusion

step:

a.object detection and segmentation by clustering

b.element-wise image caption

c.position relation detecting

d.using these elements to construct 3D model

批:

幫助點:

1.在經典的image caption中不太強調scene這個概念,在這里scene應該是一個比element高一級比subregion低一級的概念(讀后:一個用來輔助分類的三分類的)

2.相較於關注caption的輸出質量,在這里caption只作為輔助用來分類scene和描述語義屬性(而不是使用描述了的語義屬性)。即關注高層信息時適當降低順位

3.屬性這里分了兩類(動靜),caption負責語義相關的屬性,構建了VRD網絡負責位置相關的屬性

4.作為特定場景的任務,從幾個圖來看應該是對據類對謂詞進行了范圍限制(讀后:在graph中對節點和邊都進行了限制)

Introduction

contribution

1. Transformer backbone+element-wise 注意力機制+對抗學習+強化學習的image-captioning network for road images to describe the semantic attributes 

2. A new VRD network to predict the positional relationship  

3. A new two-stage 3D traffic-scene-modeling framework (1.靜態元素構建三位走廊模型 2.根據caption&位置關系 插入動態元素 )

 

以下為選擇性閱讀。

Related Work

Caption Generation for Road Images

提了一個圖文對齊(AoA)和並行度的問題(LSTM,SeqGAN引入的discriminator)

Visual Relationship Detection for Object Pairs

本文的視覺關系使用的是<主謂賓(主系表)>這樣的三元組結構,所以Visual Relationship Detecting(VRD)網絡負責1.目標檢測和對的定位 2.定義對間關系。

對於交通場景的特殊性,提出了針對的VRD。

 

 CAPTION GENERA TION FROM ROAD IMAGES

整個的交通場景建模為兩階段

第一階段網絡包含imag-captioning network 和 VRD networking,負責:“元素檢測,子區域分割”旨在提取包含元素語義、聚類子空間、元素語義屬性、元素對位置關系等的場景語義信息。

第二階段網絡旨在基於場景分類結果和描述進行場景重構。

Image Captioning Network

網絡包含四部分

(1) feature extraction, YOLOv3+COCO

(2) element detection, ResNet101+ImageNet,定義了三類場景:市區 農村 高速(單獨訓練了最后一個FC做上述三個場景的三分類)

(3) caption generation, Transformer

(4) adversarial reward.

損失函數分成了四個,生成器的的最大似然估計的,element-attention的獎勵函數,discriminator的獎勵函數,

批:FI就時三個詞么?

Element Attention 這一塊把提取器的one-hot編碼的詞進行了嵌入,並且拼接了來自Transformer decoder 的第一個掩碼解碼器的輸出的特征Fs。之后送入線性層獲得權重,旨在生成‘主場景元素相關’的句子

VISUAL RELATIONSHIP DETECTION

作為交通場景,做了一個特化的位置關系,即只包含前后左右四個方向

Visual Relationship Detection Network

In:pair of bbox,subregion,binary mask of the subregion

整體網絡結構如下

網絡中的四個模型如下:

Box Module: 兩個三個FC組成的

Visual module是Resnet101, I:occupied subregion O:visual representation feature(即三分類)

Spatial Module: I:subregion的二值圖(占1空0) O:給decision making module 一個消除背景干擾的位置關系

Decision Making Module:圖比說話快,最后有個激活函數圖里沒寫。

損失函數是個交叉熵。

TRAFFIC SCENE MODELING

Trafic scene description

節點空間限制為:車 人 路 左牆 右牆 背景

邊空間設置為:前后左右 立走駛停泊垂直

Traffic Scene Construction

這個graph看起來比較簡單一些,Edge一共分為四種,每種的內容獨立不同。

這里將之前提到的subregion給了定義,一種是“多元素子域“關注空間關系,另一類是”單目標子域“。

據此根據DBSCAN (“density-based spatial clustering of applications with noise”)對YOLOv3提取的目標(的bbox)進行聚類,子域先經過聚類再送入VRD網絡以避免無意義的位置關系。

圖有點大 截一部分意思下了。

在后面的沒有看,參考性不大。

 

 

 

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM