论文原址:https://arxiv.org/abs/1707.02921 代码: https://github.com/LimBee/NTIRE2017 摘要 以DNN进行超分辨的研究比较流行,其中,残差学习较大的提高了性能。本文提出了增强的深度超分辨网络(EDST ...
Introduction 对于image text embedding learning,作者提出了 cross modal projection matching CMPM loss 和 cross modal projection classification CMPC loss。前者最小化两个模态特征投影分布的KL散度 后者基于norm softmax损失,对模态A在模态B上的投影特征进行分 ...
2021-03-01 15:57 0 489 推荐指数:
论文原址:https://arxiv.org/abs/1707.02921 代码: https://github.com/LimBee/NTIRE2017 摘要 以DNN进行超分辨的研究比较流行,其中,残差学习较大的提高了性能。本文提出了增强的深度超分辨网络(EDST ...
Methodology 作者提出TIMAM (Text-Image Modality Adversarial Matching)方法,比较简洁明了,具体包含三个部分: (1)特征提取器: 文本采用BERT提取词向量,再输入LSTM提取文本特征; 图像采用ResNet101提取特征 ...
Learning Cross-Modal Deep Representations for Robust Pedestrian Detection 2017-04-11 19:40:22 Motivation: 本文主要是考虑了在光照极端恶劣的情况下,如何充分的利用 ...
目录: 相关链接 方法亮点 相关工作 方法细节 实验结果 总结与收获 相关链接 论文:https://arxiv.org/abs/1803.02077 代码:https://github.com/roimehrez ...
Stacked Cross Attention for Image-Text Matching 2020-03-06 15:13:08 Paper: https://arxiv.org/pdf/1803.08024.pdf Code: https://github.com ...
一、背景 图像-文本跨模态检索是一个具有挑战性的研究课题,当给定一个模态(图像或文本句子)的查询时,它的目标是从数据库中以另一个模态检索最相似的样本。这里的关键挑战是如何通过理解跨模式数据的内容 ...
目录 相关链接 方法亮点 相关工作 方法细节 实验结果 总结与收获 参考文献 相关链接: 论文:https://arxiv.org/abs/1808.00948 代码:https://github.com/HsinYingLee ...
论文原址:https://arxiv.org/pdf/1808.01244.pdf github:https://github.com/princeton-vl/CornerNet 摘要 本文提出了目标检测算法的新的模型结构,利用单个卷积网络将框的左上角及右下角 ...