1 介绍
近几年,有大量的目标检测方法被提出,并取得了很大的成功,不过,这些方法都是依赖带有标签的数据集进行训练。在实际应用中,对于给定的目标检测任务,全注释训练集可能会受到限制,从而限制了深度检测器的性能。
一种解决办法是收集易于标注的标签图片,作者列出了近几年做弱监督目标检测的方法,但这些方法都存在一个共同的问题,在训练过程中缺少足够的监督。一种解决方式:在深度模型上使用迁移学习,弱/半监督解相比,这通常是一个较好的选择,没有额外的数据收集,但迁移学习对于low-short检测也面临很大挑战。首先当目标检测集有限时,对象检测应用一般转移策略是不合适的。这主要是因为,对如此小的目标集进行微调,往往很难消除检测和分类之间的任务差异。第二与深度分类器相比,深度检测器在转移学习过程中更容易发生过拟合。这主要是由于探测器必须学习更多的对象特定的表示,无论是定位和分类任务的检测。最后,简单的微调可能会降低可移植性,因为它常常忽略了来自源和目标领域的重要目标知识。
为了解决以上面临的挑战作者提出了LSTD,该方法主要实现了:结合SSD与Faster R-CNN的优点来解决low-shot detection。同时该方法在分类与边界框回归方面非常灵活,促进了迁移学习的使用。LSTD解决了迁移学习解决了不同任务导致的差异性问题。
我们采用了一种新的正则化方法来增强微调,该方法由转移知识(TK)和背景抑制(BD)组成。TK将每个目标域的源-对象-标签知识转移到目标域,来概括在目标域的low-shot learning。BD将目标图像的边界框知识作为对特征图的额外监督,使LSTD在传输过程中对目标进行聚焦时,抑制背景干扰。
Low-short Learning:
Low-shot learning主要受人类在只有一点点概念的情况下就能学习到新的知识的启发下产生的。最近这几年陆续提出许多该方面的方法,但主要是应用于图像分类。在目标检测领域,近几年也提出了一些方法来实现若监督学习,不过由于在训练时候缺乏有效的监督最终得到的效果并不是很好。迁移学习能过解决数据集小而导致效果不佳的问题,主要是由于大规模的源基准测试可以将学习过程推广到low-shot目标领域。由于这些体系结构中的目标定位和分类都缺乏有效的low-shot检测的迁移学习设计,使用标准的深度检测器进行简单的微调可能会降低检测性能。此外,在对一些目标图像进行微调时,可能没有充分考虑来自源和目标域的对象知识。
不同于先前的方法,作者提出了一个low-shot检测器(LSTD)实现在少量数据集下的目标检测。该方法结合了SSD与Faster R-CNN的优点,同时设计了多个正则化迁移学习框架,使得LSTD能够结合源域与目标域的目标知识来提高low-shot的检测精度。
图一为LSTD的深度网络结构,结合了SSD与Faster R-CNN来解决low-set问题。多尺度卷积层主要用于边界框回归和coarse-to-fine(解决分类)。
图二 LSTD正则化迁移学习。我们使用large-scale resource数据集来训练源域LSTD,同时使用预训练源域LSTD来初始化目标域LSTD,最后我们提出low-short目标正则化并使用小尺度目标来微调目标域LSTD。
3 Low-Short Trandfer Detector
介绍LSTD接下来的实现细节。
3.1 LSTD基本的深度结构。
当训练数据很小时,为了提高训练的效率,作者减小训练的复杂度。网络结构如图1所示。结合了Faster R-CNN与SSD方法对low-shot detection实现高效率边界框回归和目标分类。
首先,设计了SSD的边界盒回归。具体来说,对于每一个选定的卷积层,在卷积特征图的每个空间位置上都有一些默认的候选框(比例和比例不同)。对于任何与ground truth对象匹配的候选框,使用回归损失(光滑L1)对预测框与地面真值边界框之间的偏移量(框中心、宽度和高度)进行补偿。SSD中的这种多卷积特征设计适合定位不同尺度大小的对象。这对于low-shot检测尤其重要,因为我们缺少具有大小多样性的训练样本。更重要的是,SSD中的回归器是在所有对象类别之间共享的,而不是像更快的RCNN中那样对每个类别都是特定的。
在这种情况下,SSD的回归参数经过大规模源域的预训练,可以在不同的low-shot目标域中重复初始化。这避免了随机重新初始化边界框回归,从而减少了在目标域中只有少量图像的微调负担。
第二,我们使用Faster R-CNN来实现目标分类。首先我们检查默认框是目标还是背景。根据每个分类器的分类得分,在快速RCNN中选择区域建议网络(RPN)的目标建议。接下来,我们在中层卷积层上使用ROI Pool,并为每层每个提案生成一个固定大小的卷积特征图。最后,我们使用ROI池层上运用的两个卷积层来实现(K+1)-对象分类,而不是使用原来更快的RCNN中的全连接层。这进一步减少了过度拟合与较少的训练参数。另外,相对于对SSD中每个缺省框的直接(K+1)-对象分类,粗到细分类器可能更有效地缓解迁移学习的训练困难。我们的主要观点是,与背景相比,源和目标中的对象可能共享特征(如清晰的边缘、均匀的纹理)。因此,,我们将这些知识用来判断是目标还是不是目标。这有助于生成更好的目标对象建议,从而提高最终的性能。相反,直接(K + 1)分类器必须处理数千个随机选择的建议。
Summary. 我们的深度架构旨在减少在low-shot检测中迁移学习的困难。为了实现这一点,我们灵活地利用SSD和faser cnn的核心设计--多卷积层设计实现边界盒回归的和粗到细的目标分类。此外,LSTD分开进行边界盒回归和对象分类,进一步分解了low-shot检测中的学习困难。
3.2 Regularized Transfer Learning for LSTD
在设计了一种灵活的LSTD深度体系结构后,引入了一种端到端正则化迁移学习框架来实现low-shot检测工作。整个过程如图2所示。首先,我们使用一个大型源数据集来训练LSTD,如图1。其次,在目标域对预训练后的LSTD进行微调,提出了一种新的正则化方法,进一步提高了对少量训练图像的检测能力。整个损失函数为:
Ltotal = Lmain + Lreg
Lmain为边界框回归和分类损失的总和。请注意,源和目标之间的对象类别可以是相关的,但是不同的,因为low-shot检测的目的是从少量的目标数据中检测以前不可见的类别。在这种情况下,需要对在目标域的(K + 1)-对象分类(即, K object + background)随机重新初始化,尽管可以从源域中预先训练的LSTD来初始化边界框回归和对象或不对象分类。然而,对L main进行微调仍可能出现过拟合。为了进一步提高目标区域的低目标检测能力,我们设计了一种新的正则化算法Lreg
Lreg = λBD LBD + λTK LTK
L BD和L TK分别表示背景抑郁和传递知识,λBD和λTK为L BD和L TK的系数。
Background-Depression (BD) Regularization
LSTD深层体系结构的边界框回归与使用SSD的多卷积层回归算法相同。虽然这种设计可以减少不同大小目标的训练困难,但是复杂的背景仍然会影响low-shot场景下的定位性能。于是提出了利用目标域中目标的信息来进行BD回归。具体来说,对于目标域中的训练图像,我们首先从LSTD的中层卷积层生成卷积特征图。然后,我们使用图像中所有对象的ground-truth框来编码特征图。因此,我们可以识别出与图像背景相关特征区域,即F BD。为了消除背景干扰,我们使用L2正则化来惩罚fbd的激活
LBD = ||FBD ||2
通过使用LBD、LSTD能够在对目标物体更加关注的同时抑制背景区域,对少量训练图像的训练尤为重要。从图3可以清楚地看出,我们的BD正则化是有帮助的减少背景干扰
图三背景抑制正则化(BD),在特征通道上对卷积特征图(conv5 - 3)进行平均得到特征热图。BD可以有效地减轻特征热图上的背景干扰,从而使LSTD能够聚焦于目标物体。
Transfer-Knowledge (TK) Regularization.
LSTD的粗分类到细分类可以减轻目标分类的困难,由于可以在目标域内使用预训练的目标-或-非分类器。但是,由于源和目标之间的类别不同,(K +1)-对象分类器必须为目标域中的K个新对象(加上背景)随机重新初始化。在这种情况下,仅使用目标数据微调这个分类器可能无法充分利用源领域知识。如图4所示,由于颜色(或形状)相似,目标对象牛(或飞机)与源域类别熊(或风筝)具有很强的相关性。为此,我们提出了一种新的传输知识(TK)正则化方法,将源网络的目标标签预测作为源域知识实现对low-shot目标检测的目标训练网络进行调整。注意,在检测任务中目标分类要求应用于每个对象提案,而不是标准图像分类任务中的整个图像。因此,我们为目标域中的每个对象提案设计了TK正则化。
图四Transfer-Knowledge (TK) regularization 对于一个目标对象提案(红框:得分最高的提案),我们通过Eq.(4)绘制出source-object的前5个softer label,TK可以有效地为目标对象提案提供重要的source- domain knowledge,即,由于颜色(或形状)相似,目标对象牛在source上(或飞机)与Bear密切相关(或风筝)。
1 Source-Domain Knowledge
将训练图像分别输入源域和目标域LSTDs。然后,将目标域提议应用于源域LSTD的ROI池层,它可以从源域对象分类器中最终生成一个知识向量,
as是每个对象提议的pre-softmax激活向量,τ> 1是一个温度参数, 通过是与richer label-relation标签信息可以产生softer label
2 Target-Domain Prediction of Source-Domain Categories
为了将源领域知识pτs添加到目标领域LSTD的训练过程,我们将目标域LSTD变成一个多任务学习框架。具体来说,我们在目标域LSTD的末尾添加了一个source-object soften分类。对于每一个目标提议框,该分类器都会产生对源对象类别的soften预测,
A pre是每个提案的pre-softmax激活
3 TK Regularization
对于源领域LSTD的知识pτs和目标域LSTD的soften预测pτpre,我们应用交叉熵作为损失作为TK正规化,
在这种情况下,可以将源域知识集中到目标域的训练过程中,从而使LSTD在目标域内实现low-shot检出
Summary: 为了减少训练时间过短的过度拟合现象,提出了一种端到端正则化的LSTD迁移学习框架。这是第一个针对low-shot的迁移学习。整个训练过程如Alg. 1所示,我们充分利用预训练的源域LSTD来推广目标域LSTD。此外,我们还设计了一种新的正则化方法。以有限的目标训练集有效地进行微调
4实验
Date set : 由于我们的LSTD是一个基于正则化转移学习框架的低概率检测器,所以我们采用了一组检测基准数据集 coco,voc2007和VOC2010来作为源域和目标域如表1所示。训练集在每个任务的源域中是大规模的,而在目标域中是low-shot的(1/2/5/10/30每个目标对象类的训练图像)。此外,为了评估我们的LSTD是否能够从目标域中的少量训练镜头中检测到未被发现的目标类别,我们仔细选择了源和目标的目标分类,使其不重叠。最后,我们使用PASCAL VOC测试集的标准测试规则来求IOU为0.5的平均检测精度。注意,task 1的目标域是ImageNet2015有50对象。因此,我们为这个目标域定义了一个测试集,在这个测试集中,我们在ImageNet2015的每个target-object类中随机采样100张图像。公平起见,该目标域中的训练和测试图像是不重叠的。task 2和task 3的目标域参照标准VOC2007 VOC2010。因此,我们使用标准测试集进行评估。
表1,数据描述,为了评估LSTD是否能够从目标域中的少量训练sjot中检测到不可见的目标类别,对源和目标的目标类别进行了仔细的非重叠选择
首先,LSTD的基本深层架构是基于VGG16 (Simonyan和Zisser- man 2014),类似于SSD和Faster RCNN。对于边界盒回归,我们使用与SSD相同的结构。对于对象分类,我们在conv7上应用ROI池层,在(K + 1)-对象分类器之前并添加两个卷积层(conv12:,3×3×256,conv13: 3×3×256 for task 1/2/3)。其次,我们在一个正则化的迁移学习框架(Alg. 1)中训练LSTD。在源域中,我们为task 1/2/3中的每个小批输入32张训练图像到LSTD中来进行边界框回归和目标分类。随后,用100/100/64提议框(阀值为0.65对前1000提议进行非极大值抑制)训练(K+1)-对象分类器。在目标域,所有的训练样本与源域相同。除了选择64/64/64个提议来训练(K+1)对象分类器外,conv5 3采用了后地降正则化,转移知识正则化中的温度参数为2。背景抑郁和转移知识的权重系数均为0.5。最后,源和目标的优化策略均为Adam (Kingma和Ba 2015),其中初始学习率为0.0002(衰减0.1),动量/动量2为0.9/0.99,权值衰减为0.0001。