文獻閱讀_image caption_IEEE2021_Caption Generation From Road Images for Traffic Scene Modeling

本文轉載自查看原文 2021-09-09 13:51 93

preface（me）

不堆數據和算力的情況下，大概是要做特定場景的。Traffic scene 相對於與課題貼合，並且有一定數量的文獻，從這個角度切入看看有沒有說法。

Abstract&Conclusion

step：

a.object detection and segmentation by clustering

b.element-wise image caption

c.position relation detecting

d.using these elements to construct 3D model

批：

幫助點：

1.在經典的image caption中不太強調scene這個概念，在這里scene應該是一個比element高一級比subregion低一級的概念（讀后：一個用來輔助分類的三分類的）

2.相較於關注caption的輸出質量，在這里caption只作為輔助用來分類scene和描述語義屬性（而不是使用描述了的語義屬性）。即關注高層信息時適當降低順位

3.屬性這里分了兩類（動靜），caption負責語義相關的屬性，構建了VRD網絡負責位置相關的屬性

4.作為特定場景的任務，從幾個圖來看應該是對據類對謂詞進行了范圍限制（讀后：在graph中對節點和邊都進行了限制）

Introduction

contribution

1. Transformer backbone+element-wise 注意力機制+對抗學習+強化學習的image-captioning network for road images to describe the semantic attributes

2. A new VRD network to predict the positional relationship

3. A new two-stage 3D traffic-scene-modeling framework (1.靜態元素構建三位走廊模型 2.根據caption&位置關系插入動態元素 )

以下為選擇性閱讀。

Related Work

Caption Generation for Road Images

提了一個圖文對齊（AoA）和並行度的問題（LSTM，SeqGAN引入的discriminator）

Visual Relationship Detection for Object Pairs

本文的視覺關系使用的是<主謂賓（主系表）>這樣的三元組結構，所以Visual Relationship Detecting（VRD）網絡負責1.目標檢測和對的定位 2.定義對間關系。

對於交通場景的特殊性，提出了針對的VRD。

CAPTION GENERA TION FROM ROAD IMAGES

整個的交通場景建模為兩階段

第一階段網絡包含imag-captioning network 和 VRD networking，負責：“元素檢測，子區域分割”旨在提取包含元素語義、聚類子空間、元素語義屬性、元素對位置關系等的場景語義信息。

第二階段網絡旨在基於場景分類結果和描述進行場景重構。

Image Captioning Network

網絡包含四部分

(1) feature extraction, YOLOv3+COCO

(2) element detection, ResNet101+ImageNet，定義了三類場景：市區農村高速（單獨訓練了最后一個FC做上述三個場景的三分類）

(3) caption generation, Transformer

(4) adversarial reward.

損失函數分成了四個，生成器的的最大似然估計的，element-attention的獎勵函數，discriminator的獎勵函數，

批：FI就時三個詞么？

Element Attention 這一塊把提取器的one-hot編碼的詞進行了嵌入，並且拼接了來自Transformer decoder 的第一個掩碼解碼器的輸出的特征Fs。之后送入線性層獲得權重，旨在生成‘主場景元素相關’的句子

VISUAL RELATIONSHIP DETECTION

作為交通場景，做了一個特化的位置關系，即只包含前后左右四個方向

Visual Relationship Detection Network

In：pair of bbox，subregion，binary mask of the subregion

整體網絡結構如下

網絡中的四個模型如下：

Box Module：兩個三個FC組成的

Visual module是Resnet101， I：occupied subregion O：visual representation feature（即三分類）

Spatial Module： I：subregion的二值圖（占1空0） O：給decision making module 一個消除背景干擾的位置關系

Decision Making Module：圖比說話快，最后有個激活函數圖里沒寫。

損失函數是個交叉熵。

TRAFFIC SCENE MODELING

Trafic scene description

節點空間限制為：車人路左牆右牆背景

邊空間設置為：前后左右立走駛停泊垂直

Traffic Scene Construction

這個graph看起來比較簡單一些，Edge一共分為四種，每種的內容獨立不同。

這里將之前提到的subregion給了定義，一種是“多元素子域“關注空間關系，另一類是”單目標子域“。

據此根據DBSCAN (“density-based spatial clustering of applications with noise”)對YOLOv3提取的目標（的bbox）進行聚類，子域先經過聚類再送入VRD網絡以避免無意義的位置關系。

圖有點大截一部分意思下了。

在后面的沒有看，參考性不大。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 論文：Show and Tell: A Neural Image Caption Generator-閱讀總結 VAR 經典文獻閱讀《Image Generation with PixelCNN Decoders》論文筆記文獻閱讀_image capition_2020ECCV_Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks 論文閱讀（Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition）如何對文獻進行閱讀與整理練手項目之image caption問題記錄 MS coco中image_caption的數據格式詳解讀paper:image caption with global-local attention… How to select Multiple images from UIImagePickerController [duplicate]