摘要
In this paper, we propose a novel method called Rotational Region CNN (R2CNN) for detecting arbitrary-oriented texts in natural scene images. The framework is based on Faster R-CNN [1] architecture. First, we use the Region Proposal Network (RPN) to generate axis-aligned bounding boxes that enclose the texts with different orientations. Second, for each axis-aligned text box proposed by RPN, we extract its pooled features with different pooled sizes and the concatenated features are used to simultaneously predict the text/non-text score, axis-aligned box and inclined minimum area box. At last, we use an inclined non-maximum suppression to get the detection results. Our approach achieves competitive results on text detection benchmarks: ICDAR 2015 and ICDAR 2013.
link
Jiang, Y., Zhu, X., Wang, X., Yang, S., Li, W., Wang, H., et al. (2017, June 29). R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection. arXiv.org.
標簽
text detection
Outline
文字檢測和識別已經廣泛商業應用,比如漢王,百度,阿里雲,國外知名的Tesseract,目前已經開通身份證,名片,駕駛證/駕照,銀行卡,營業執照,車牌照,通用印刷體等各種日常應用的識別和API調用(當然是收費的)。這些文字檢測和識別特點是背景簡單,格式固定,檢測和識別率比較高。而在實際生活中,比如指路牌,商場廣告,公眾交通等,這些文字顏色背景方向都是任意的,目前最難以檢測和識別的也是這些場景文字。
場景文字檢測的難點在於:文字大小不同,高寬比率不同,字體,燈光,透視變形,方向等。對於場景文字識別比普通文字識別差別是預測帶方向的軸對稱的邊界框信息。
本文是三星北京研發中心提出的R2CNN(Rotational Region CNN),基於Faster R-CNN架構,主要用於文字檢測。
Motivation
場景文字檢測的難點在於:文字大小不同,高寬比率不同,字體,燈光,透視變形,方向等。對於場景文字識別比普通文字識別差別是預測帶方向的軸對稱的邊界框信息。 本文是三星北京研發中心提出的R2CNN(Rotational Region CNN),基於Faster R-CNN架構,主要用於文字檢測。
論文主要貢獻:
- 基於RPN(Region Proposal Network)生成包圍文字的帶方向的軸對稱的邊界框。
- 對於每個RPN生成的軸對稱文字框,提前池化特征和融合特征,同時預測文字得分,軸對稱邊界框,傾斜最小區域框。為了生成大部分支付特征,ROIPoolings 使用3種池化尺寸。
- 基於修訂版Faster R-CNN框架,添加小的anchor用於檢測弱小文字,使用傾斜的NMS后處理檢測框,獲取最終檢測結果。
論文模型在ICDAR 2015和ICDAR 2013驗證。
Architecture
Problem definition
ICDAR2015競賽場景文字檢測中,基准標注數據由4個坐標點組成的四邊形表示(四邊形緊密包圍文字,標注格式是:(x1,y1,x2,y2,x3,y3,x4,y4)),而論文提出用最小的平行四邊形檢測文本框,用順時針的前兩個頂點和高度組成(表示方法:(x1,y1,x2,y2,h))。
Rotational Region CNN (\(R^2CNN\))

R2CNN的框架筆記簡單,如圖1所示。主體框架是Faster R-CNN,RPN生成文字proposals區域,是包含任意方向文字的軸對稱的邊界定位框。對於每一個proposal,ROIPoolings 使用不同池化尺度(7 × 7, 11 × 3, 3 × 11) 池化特征融合,用於分類和回歸。經過兩層全連層后,輸出3種預測:文字得分,軸對稱邊界框和傾斜最小邊界框。最小邊界框經過NMS得到最終的檢測結果。
- RPN for proposing axis-aligned boxes
在通用模板檢測中anchor 是 (8,16,32),論文中使用Faster R-CNN只改變anchor為(4,8,16,32),用於檢測微小文字,其他設置如anchor比率、正負樣本比率等和原框架相同。 - ROIPoolings of different pooled sizes
Faster R-CNN中原來框架,ROIPooling使用7x7池化,因為文字的寬度高度不同情況,論文采用7 × 7, 11 × 3, 3 × 11三種池化 。11 × 3用於檢測水平方向和寬度大於高度的文字,3 × 11用於檢測豎直方向和高度大於寬度的文字。 - Inclined non-maximum suppression
普通NMS只能生成矩形框,論文使用傾斜的NMS生成傾斜的檢測框。 - Training objective (Multi-task loss)
因為是多任務學習,論文使用3個損失函數和表示總的損失函數。
Experiment
Training Data
論文使用ICDAR2015 1000個傾斜場景文字圖片和2000個收集的場景文字圖片作為訓練集。為了數據增強。論文采用原始圖片旋轉 (-90, -75, -60, -45, -30, -15, 0, 15, 30, 45, 60, 75, 90),最終生成39000幅圖片。
因為論文使用的標注方式是平行四邊形,和ICDAR不同,論文對ICDAR2015重新標注,收集的圖片也做類似標注。
Training
論文訓練模型采用在ImageNet 預訓練的VGG16,模型訓練20xe4次遍歷,學習速率10e-3, 5 × 10e4 , 10 × 10e4 和15 × 10e4 遍歷后都乘以10。權重decays 0.0005,momentums =0.9。圖像分辨率1280x720,和ICDAR2015相同。 .Performance參考原論文。
Conclusion
1、從數學上講,只有四邊形的兩個頂點和高,平行四邊形的性質可以是任意的,也不知道作者是怎么想的用來表示平行四邊形的定位框。
2、論文對原始ICDAR2015重新標注,個人覺得工作量有些大,而且和大家的評價方式不同,訓練結果有失公允。
3、論文F-measure 82.54%,耗時2.25s(Tesla K80 GPU),對於目標檢測來說速率不能算快。