preface(me)
不堆數據和算力的情況下,大概是要做特定場景的。Traffic scene 相對於與課題貼合,並且有一定數量的文獻,從這個角度切入看看有沒有說法。
Abstract&Conclusion
step:
a.object detection and segmentation by clustering
b.element-wise image caption
c.position relation detecting
d.using these elements to construct 3D model
批:
幫助點:
1.在經典的image caption中不太強調scene這個概念,在這里scene應該是一個比element高一級比subregion低一級的概念(讀后:一個用來輔助分類的三分類的)
2.相較於關注caption的輸出質量,在這里caption只作為輔助用來分類scene和描述語義屬性(而不是使用描述了的語義屬性)。即關注高層信息時適當降低順位
3.屬性這里分了兩類(動靜),caption負責語義相關的屬性,構建了VRD網絡負責位置相關的屬性
4.作為特定場景的任務,從幾個圖來看應該是對據類對謂詞進行了范圍限制(讀后:在graph中對節點和邊都進行了限制)
Introduction
contribution
1. Transformer backbone+element-wise 注意力機制+對抗學習+強化學習的image-captioning network for road images to describe the semantic attributes
2. A new VRD network to predict the positional relationship
3. A new two-stage 3D traffic-scene-modeling framework (1.靜態元素構建三位走廊模型 2.根據caption&位置關系 插入動態元素 )
以下為選擇性閱讀。
Related Work
Caption Generation for Road Images
提了一個圖文對齊(AoA)和並行度的問題(LSTM,SeqGAN引入的discriminator)
Visual Relationship Detection for Object Pairs
本文的視覺關系使用的是<主謂賓(主系表)>這樣的三元組結構,所以Visual Relationship Detecting(VRD)網絡負責1.目標檢測和對的定位 2.定義對間關系。
對於交通場景的特殊性,提出了針對的VRD。
CAPTION GENERA TION FROM ROAD IMAGES
整個的交通場景建模為兩階段
第一階段網絡包含imag-captioning network 和 VRD networking,負責:“元素檢測,子區域分割”旨在提取包含元素語義、聚類子空間、元素語義屬性、元素對位置關系等的場景語義信息。
第二階段網絡旨在基於場景分類結果和描述進行場景重構。
Image Captioning Network
網絡包含四部分
(1) feature extraction, YOLOv3+COCO
(2) element detection, ResNet101+ImageNet,定義了三類場景:市區 農村 高速(單獨訓練了最后一個FC做上述三個場景的三分類)
(3) caption generation, Transformer
(4) adversarial reward.
損失函數分成了四個,生成器的的最大似然估計的,element-attention的獎勵函數,discriminator的獎勵函數,
批:FI就時三個詞么?
Element Attention 這一塊把提取器的one-hot編碼的詞進行了嵌入,並且拼接了來自Transformer decoder 的第一個掩碼解碼器的輸出的特征Fs。之后送入線性層獲得權重,旨在生成‘主場景元素相關’的句子
VISUAL RELATIONSHIP DETECTION
作為交通場景,做了一個特化的位置關系,即只包含前后左右四個方向
Visual Relationship Detection Network
In:pair of bbox,subregion,binary mask of the subregion
整體網絡結構如下
網絡中的四個模型如下:
Box Module: 兩個三個FC組成的
Visual module是Resnet101, I:occupied subregion O:visual representation feature(即三分類)
Spatial Module: I:subregion的二值圖(占1空0) O:給decision making module 一個消除背景干擾的位置關系
Decision Making Module:圖比說話快,最后有個激活函數圖里沒寫。
損失函數是個交叉熵。
TRAFFIC SCENE MODELING
Trafic scene description
節點空間限制為:車 人 路 左牆 右牆 背景
邊空間設置為:前后左右 立走駛停泊垂直
Traffic Scene Construction
這個graph看起來比較簡單一些,Edge一共分為四種,每種的內容獨立不同。
這里將之前提到的subregion給了定義,一種是“多元素子域“關注空間關系,另一類是”單目標子域“。
據此根據DBSCAN (“density-based spatial clustering of applications with noise”)對YOLOv3提取的目標(的bbox)進行聚類,子域先經過聚類再送入VRD網絡以避免無意義的位置關系。
圖有點大 截一部分意思下了。
在后面的沒有看,參考性不大。