论文笔记-R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection

本文转载自查看原文 2018-04-02 15:20 1675 Object Detection/ Text Detection/ 论文笔记

摘要

In this paper, we propose a novel method called Rotational Region CNN (R2CNN) for detecting arbitrary-oriented texts in natural scene images. The framework is based on Faster R-CNN [1] architecture. First, we use the Region Proposal Network (RPN) to generate axis-aligned bounding boxes that enclose the texts with different orientations. Second, for each axis-aligned text box proposed by RPN, we extract its pooled features with different pooled sizes and the concatenated features are used to simultaneously predict the text/non-text score, axis-aligned box and inclined minimum area box. At last, we use an inclined non-maximum suppression to get the detection results. Our approach achieves competitive results on text detection benchmarks: ICDAR 2015 and ICDAR 2013.

link

Jiang, Y., Zhu, X., Wang, X., Yang, S., Li, W., Wang, H., et al. (2017, June 29). R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection. arXiv.org.

Outline

文字检测和识别已经广泛商业应用，比如汉王，百度，阿里云，国外知名的Tesseract，目前已经开通身份证，名片，驾驶证/驾照，银行卡，营业执照，车牌照，通用印刷体等各种日常应用的识别和API调用（当然是收费的）。这些文字检测和识别特点是背景简单，格式固定，检测和识别率比较高。而在实际生活中，比如指路牌，商场广告，公众交通等，这些文字颜色背景方向都是任意的，目前最难以检测和识别的也是这些场景文字。
场景文字检测的难点在于:文字大小不同，高宽比率不同，字体，灯光，透视变形，方向等。对于场景文字识别比普通文字识别差别是预测带方向的轴对称的边界框信息。
本文是三星北京研发中心提出的R2CNN（Rotational Region CNN），基于Faster R-CNN架构，主要用于文字检测。

Motivation

场景文字检测的难点在于:文字大小不同，高宽比率不同，字体，灯光，透视变形，方向等。对于场景文字识别比普通文字识别差别是预测带方向的轴对称的边界框信息。本文是三星北京研发中心提出的R2CNN（Rotational Region CNN），基于Faster R-CNN架构，主要用于文字检测。
论文主要贡献：

基于RPN(Region Proposal Network)生成包围文字的带方向的轴对称的边界框。
对于每个RPN生成的轴对称文字框，提前池化特征和融合特征，同时预测文字得分，轴对称边界框，倾斜最小区域框。为了生成大部分支付特征，ROIPoolings 使用3种池化尺寸。
基于修订版Faster R-CNN框架，添加小的anchor用于检测弱小文字，使用倾斜的NMS后处理检测框，获取最终检测结果。
论文模型在ICDAR 2015和ICDAR 2013验证。

Architecture

Problem definition

ICDAR2015竞赛场景文字检测中，基准标注数据由4个坐标点组成的四边形表示（四边形紧密包围文字，标注格式是：(x1,y1,x2,y2,x3,y3,x4,y4)），而论文提出用最小的平行四边形检测文本框，用顺时针的前两个顶点和高度组成（表示方法：(x1,y1,x2,y2,h)）。

Rotational Region CNN (\(R^2CNN\))

R2CNN的框架笔记简单，如图1所示。主体框架是Faster R-CNN，RPN生成文字proposals区域，是包含任意方向文字的轴对称的边界定位框。对于每一个proposal，ROIPoolings 使用不同池化尺度(7 × 7, 11 × 3, 3 × 11) 池化特征融合，用于分类和回归。经过两层全连层后，输出3种预测：文字得分，轴对称边界框和倾斜最小边界框。最小边界框经过NMS得到最终的检测结果。

RPN for proposing axis-aligned boxes
在通用模板检测中anchor 是 (8,16,32)，论文中使用Faster R-CNN只改变anchor为(4,8,16,32)，用于检测微小文字，其他设置如anchor比率、正负样本比率等和原框架相同。
ROIPoolings of different pooled sizes
Faster R-CNN中原来框架，ROIPooling使用7x7池化，因为文字的宽度高度不同情况，论文采用7 × 7, 11 × 3, 3 × 11三种池化。11 × 3用于检测水平方向和宽度大于高度的文字，3 × 11用于检测竖直方向和高度大于宽度的文字。
Inclined non-maximum suppression
普通NMS只能生成矩形框，论文使用倾斜的NMS生成倾斜的检测框。
Training objective (Multi-task loss)
因为是多任务学习，论文使用3个损失函数和表示总的损失函数。

Experiment

Training Data

论文使用ICDAR2015 1000个倾斜场景文字图片和2000个收集的场景文字图片作为训练集。为了数据增强。论文采用原始图片旋转 (-90, -75, -60, -45, -30, -15, 0, 15, 30, 45, 60, 75, 90)，最终生成39000幅图片。
因为论文使用的标注方式是平行四边形，和ICDAR不同，论文对ICDAR2015重新标注，收集的图片也做类似标注。

Training

论文训练模型采用在ImageNet 预训练的VGG16，模型训练20xe4次遍历，学习速率10e-3， 5 × 10e4 , 10 × 10e4 和15 × 10e4 遍历后都乘以10。权重decays 0.0005,momentums =0.9。图像分辨率1280x720，和ICDAR2015相同。 .Performance参考原论文。

Conclusion

1、从数学上讲，只有四边形的两个顶点和高，平行四边形的性质可以是任意的，也不知道作者是怎么想的用来表示平行四边形的定位框。
2、论文对原始ICDAR2015重新标注，个人觉得工作量有些大，而且和大家的评价方式不同，训练结果有失公允。
3、论文F-measure 82.54%，耗时2.25s(Tesla K80 GPU)，对于目标检测来说速率不能算快。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 论文阅读笔记三：R2CNN：Rotational Region CNN for Orientation Robust Scene Text Detection(CVPR2017) 论文笔记：Mask R-CNN 【论文笔记】Libra R-CNN:Towards Balanced Learning for Object Detection Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks论文理解【CV论文阅读】Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 论文阅读笔记二十七：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks（CVPR 2016）深度学习论文翻译解析（十三）：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 论文笔记：目标检测算法（R-CNN，Fast R-CNN，Faster R-CNN，FPN，YOLOv1-v3）论文笔记：Learning Region Features for Object Detection 论文阅读之：Is Faster R-CNN Doing Well for Pedestrian Detection?