最全的曲文檢測整理


SummaryOnCurveTextDet_2018_12_26

方法和思路總結

  1. 從趨勢和效果來看,應該基本確定:用instance-segmentation思路做

  2. 目前已用的框架來看:

    • 檢測:Faster RCNN、R-FCN
    • 分割:Mask R-CNN、FPN、FCIS
  3. 目前在這個方面,探討的比較多的兩個instance-segmentation用在文字上的問題

    • 多邊形表示mask
    • 多scale(FPN,低高層特征進行fusion)
    • 黏連
  4. 我覺得比較好的可以參考的幾個點

    • 對gt做shrink
    • attention
    • PAN
    • FCIS的PSROI也不錯
  5. 常用需要拿來做實驗對比的庫

    • CTW1500
    • Total-Text
    • ICDAR15
    • ICDAR17-MLT
    • MSRA-TD500

論文列表

  1. Yuliang Liu_2017_Detecting Curve Text in the Wild_New Dataset and New Solution

    • 方法名稱:CTD+TLOC
  2. Shangbang Long_ECCV2018_TextSnake_A Flexible Representation for Detecting Text of Arbitrary Shapes

    • 方法名稱:TextSnake
  3. Yuchen Dai——【2017】Fused Text Segmentation Networks for Multi-Oriented Scene Text Detection

    • 方法名稱:FTSN
  4. Jun Du——【ICPR2018】Sliding Line Point Regression for Shape Robust Scene Text Detection

    • 方法名稱:SLPR
  5. XiangLi——【2018】Shape Robust Text Detection with Progressive Scale Expansion Network

    • 方法名稱:PSENet
  6. Zhida Huang——【2018】Mask R-CNN with Pyramid Attention Network for Scene Text Detection

    • 方法名稱:Mask-PAN(自己取的名)
  7. Yongchao Xu——【2018】TextField_Learning A Deep Direction Field for Irregular Scene Text Detection

    • 方法名稱:TextField
  8. Enze Xie——【AAAI2019】Scene Text Detection with Supervised Pyramid Context Network

    • 方法名稱:SPCNET
  9. Jiaming Liu——【2019】Detecting Text in the Wild with Deep Character Embedding Network

    • 方法名稱:CENet
  10. Chuhui Xue——【arxiv2019】MSR_Multi-Scale Shape Regression for Scene Text Detection

  • 方法名稱:MSR

方法詳細描述

1. CTD+TLOC【見之前博客

論文

Yuliang Liu_2017_Detecting Curve Text in the Wild_New Dataset and New Solution

亮點
  • 第一篇做曲文檢測,還提出一個數據集CTW1500
  • 使用14個點多邊形來表示曲文
  • 提出了一個結合CNN-RPN+RNN的檢測方法專門做曲文檢測

方法概述

針對曲文檢測,基於RPN進行修改,除了學習text/non-text分類,多邊形的bounding box回歸(x1,y1,x2,y2),增加了14個點的回歸,最后再進行后處理(去噪+nms)得到最終輸出。

2. TextSnake【見之前博客

論文

Shangbang Long_ECCV2018_TextSnake_A Flexible Representation for Detecting Text of Arbitrary Shapes

亮點
  • 提出一個新的曲線文本表示方法TextSnake(由圓盤序列組成)
  • 提出了一個新的曲文檢測方法,並且精度比之前的高40%+(Total-Text數據集)

Fig. 2. Illustration of the proposed TextSnake representation. Text region (in yellow) is represented as a series of ordered disks (in blue), each of which is located at the center line (in green, a.k.a symmetric axis or skeleton) and associated with a radius r and an orientation θ. In contrast to conventional representations (e.g., axis-aligned rectangles, rotated rectangles and quadrangles), TextSnake is more flexible and general, since it can precisely describe text of different forms, regardless of shapes and lengths.

方法概述

針對曲文檢測,提出一個新的曲線文本表示方法TextSnake——用一個有序的圓盤序列來表示文字,先用FCN檢測文本區域、文本中心線、以及每個點的圓盤半徑、方向,然后利用文本區域mask和中心線mask得到text instance segmentation。在每個text-instance上,交替進行點中心化和點擴展,得到文本中心點序列。最后結合圓盤半徑,得到文本區域的TextSnake表示並進行union得到最終的文本區域。

3. FTSN

論文

Yuchen Dai——【2017】Fused Text Segmentation Networks for Multi-Oriented Scene Text Detection

亮點
  • 比較早的一篇用FCIS做曲文檢測的方法
  • 提出Mask NMS
方法概述

針對曲文檢測,采用instance-segmentation思路,基於FCIS框架,基本沒特別改動,增加了一個Mask NMS。

檢測流程是:使用FCIS得到instance-segmentation mask,然后再用Mask NMS,最后利用Mask得到多邊形。

Fig. 2. The proposed framework consists of three parts: feature extraction, feature fusion along with region proposing and text instance prediction. The dashed line represents a convolution with 1x1 kernel size and 1024 output channels. The line in red is for upsampling operation and blue lines indicate on which feature maps PSROIPooling are performed using given ROIs.

Mask NMS實際上就是把IOU-overlap換成兩個Mask的Intersection的像素點總數,分母的union area換成兩個polygon的max_area。mask maximum-intersection (MMI) :

4. SLPR

論文

Jun Du——【ICPR2018】Sliding Line Point Regression for Shape Robust Scene Text Detection

亮點
  • 基於檢測框架進行修改,只需增加回歸點的縱坐標或者縱坐標。是對於CTD+TLOC的簡化和改進。
方法概述

針對曲文檢測,采用object-detection思路,基於Faster R-CNN/R-FCN框架,增加了沿x/y軸均勻划線與多邊形交點的縱/橫坐標的回歸(14個點,僅回歸x或y坐標),最后把點串起來得到多邊形。

PlusPS

總結了一波NMS的方法。

  • locality-aware NMS

X. Zhou, C. Yao, H. Wen, Y. Wang, S. Zhou, W. He, and J. Liang, “East: An efficient and accurate scene text detector,” arXiv preprint arXiv:1704.03155, 2017.

  • inclined NMS

Y. Jiang, X. Zhu, X. Wang, S. Yang, W. Li, H. Wang, P. Fu, and Z. Luo, “R2cnn: Rotational region cnn for orientation robust scene text detection,” arXiv preprint arXiv:1706.09579, 2017.

  • Mask-NMS

Y. Dai, Z. Huang, Y. Gao, and K. Chen, “Fused text segmentation networks for multi-oriented scene text detection,” arXiv preprint arXiv:1709.03272, 2017.

  • polygonal NMS(PNMS)

L. Yuliang, J. Lianwen, Z. Shuaitao, and Z. Sheng, “Detecting curve text in the wild: New dataset and new solution,” arXiv preprint arXiv:1712.02170, 2017.

5. PSENet

論文

XiangLi——【2018】Shape Robust Text Detection with Progressive Scale Expansion Network

亮點
  • 利用不同shrink的segmentation來解決text-instance的黏連問題,很有新意;
  • 提出一個自己設計的多個score map逐步擴展算法
方法概述

針對曲文檢測,采用instance-segmentation思路,基於FPN框架進行修改,將其用在曲線文在檢測上。

文章提出了曲文檢測的當前兩大問題:

第一,目前已有的文字表示方法(正矩形,斜矩形,四邊形)無法滿足任意形狀的文字檢測;

解決思路: 用分割來做。

第二,已有的分割方法最大問題在於靠的近的text instance容易黏連。

解決思路:對文字區域(gt-dt)進行不同程度的shrink,然后逐步擴展。

Figure 1: The results of different methods, best viewed in color. (a) is the original image. (b) refers to the result of bounding box regression-based method, which displays disappointing detections as the red box covers nearly more than half of the context in the green box. (c) is the result of semantic segmentation, which mistakes the 3 text instances for 1 instance since their boundary pixels are partially connected. (d) is the result of our proposed PSENet, which successfully distinguishs and detects the 4 unique text instances.

整個檢測方法的流程是:使用FPN網絡得到多個shirink程度不一樣的segmentation map,再把多個map進行逐步擴展得到最終的map。

Figure 2: Illustration of our overall pipeline. The left part is implemented from FPN [16]. The right part denotes the feature fusion and the progressive scale expansion algorithm

PlusPS

這篇文章提供了兩個比較有用的算法參考文獻:

第一,Vatti clipping algorithm用於對多邊形進行shrink:

Bala R Vatti. A generic solution to polygon clipping. Communications of the ACM, 1992.

第二,RamerDouglas-Peucker algorithm用於利用mask得到多邊形:

Urs Ramer. An iterative procedure for the polygonal approximation of plane curves. CGIP, 1972.

6. Mask-PAN

論文

Zhida Huang——【2018】Mask R-CNN with Pyramid Attention Network for Scene Text Detection

亮點
  • 基於Mask RCNN進行修改,可做四邊形回歸
  • 首次將PAN用在文字檢測上
方法概述

針對曲文檢測,采用Instance-segmentation思路,基於MaskR-CN0N進行修改,將其用在曲線文本檢測上。

改進的點在於兩個:

第一, 在backbone網絡中加入PAN(Pyramid Attention Network,由Feature Pyramid Attention和Global Attention Up-Sample兩個部分組成),使得特征對scale大小魯棒性更強

第二,將Mask-RCNN的regression分支由box回歸(4個值)改為polygon回歸(8個值),使其可以用做四邊形回歸(但還是不能用來做曲文的回歸,曲文用的是mask的多邊形框

第三,參照ION的思想,提出Skip-RoiAlign在多層進行融合

Figure 1: Architecture of our Mask R-CNN based text detector, which consists of a PAN backbone network, a region proposal network, a Fast R-CNN detector and a mask prediction network.

7. TextField

論文

Yongchao Xu——【2018】TextField_Learning A Deep Direction Field for Irregular Scene Text Detection

亮點
  • 提出的TextField方法非常新穎,用點到最近boundary點的向量來區分不同instance
方法概述

針對曲文檢測,采用Instance-segmentation思路,提出一種對於分割點的新的表示方法TextField,旨在解決text instance的黏連問題。

TextField是一個二維的向量v,用來表示分割score map上的每一個點,它的含義是:每個text像素點到離自己最近的boundary點的向量。它的屬性包括:

  • 非text像素點=(0, 0),text像素點 $\ne$ (0,0)
  • 向量的magnitude,可以用來區分是文字/非文字像素點
  • 向量的direction,可以用來進行后處理幫助形成文本塊

具體檢測流程是:用一個VGG+FPN網絡學習TextField的兩張score map圖,然后這兩張圖上做關於超像素、合並、形態學等后處理來得到text instance。

Fig. 3: Pipeline of the proposed method. Given an image, the network learns a novel direction field in terms of a two-channel map, which can be regarded as an image of two-dimensional vectors. To better show the predicted direction field, we calculate and visualize its magnitude and direction information. Text instances are then obtained based on these information via the proposed post-processing using some morphological tools.

8. SPCNET

論文

Enze Xie——【AAAI2019】Scene Text Detection with Supervised Pyramid Context Network

亮點
  • 基於Mask R-CNN進行修改,加Attention機制,結合global信息
  • 利用Mask的分數來進行Re-score
方法概述

針對曲文檢測,采用Instance-segmentation思路,基於MaskR-CNN進行修改,將其用在曲線文本檢測上。

文章的motivation認為:

已有的Mask R-CNN用在文字檢測上有兩個問題:

第一,每個ROI單獨做box regression等,缺乏不同region間的context信息(例如,盤子經常出現在桌子上);

第二,Mask R-CNN的box針對水平文字,不利於傾斜文本,因為背景像素點占了很大比例(還有,比如用box后兩行text的box會有較大覆蓋)。

作者提出的解決辦法是:

針對問題一,提出一個Text Context Module,加入SSTD的Attention機制並把global信息和local信息進行fusion;

針對問題二,提出一種Re-score Mechanism,利用Mask的score和box的score進行平均來解決傾斜文本的分類分數錯誤問題。

整個檢測流程是:用Mask-RCNN+Attention網絡進行inference,后處理用Mask的分數Re-socre,利用得到的mask來得到最后的檢測結果(minAreaRect)。

Figure 2: The architecture of our method. (a) The Feature Pyramid Network (FPN) architecture. (b) Pyramid Feature fusion via TCM. (c) Mask R-CNN branch for text classification, bounding box regression and instance segmentation. (d) The proposed Text-Context Module(TCM). Dotted line indicates the text semantic segmentation branch. The text segmentation map is upsampled to the input image size and calculates the loss with Ground Truth.

9. CENet

論文

Jiaming Liu——【2019】Detecting Text in the Wild with Deep Character Embedding Network

亮點
  • 通過將文字的字符合並問題轉成字符embedding問題,利用一個網絡來學習字符間的連接關系
方法概述

針對任意文字檢測(水平、傾斜、曲文),采用從字符到文本行的自底向上的pipeline。先用一個網絡CENet學習兩個任務,包括單個字符的檢測,以及一個字符對的embedding向量(表示兩個字符是否可以構成一個pair)。然后再用一個字符分類閾值提取檢測到的字符,和一個合並閾值提取group的字符對。最后利用WordSup中的文本線形成算法(圖模型+一階線性模型)得到文本行。

實際test時步驟:

  • 運行CENet,得到字符候選集合+字符對候選集合
  • 利用分數閾值s過濾非字符噪聲
  • 對每個字符運用r-KNN,查找local的character pairs(參數d、k)
  • 使用piecewise linear model(分段線性擬合)來得到character group的最外接任意多邊形

Fig. 2. Overall process of the model. Blue bounding boxes in \character proposals" are character candidates with high confidence scores. \Character Clusters" is the character clusters in embedding space, where candidates in the same cluster use the same color. The final detected words represented in quadrangles are shown in \Detected text". Better view in color.

10. MSR

論文

Chuhui Xue——【arxiv2019】MSR_Multi-Scale Shape Regression for Scene Text Detection

  • multi-scale網絡中利用FPN的up-sampling把多個不同scale得到的結果進行融合(concat + uppooling)
  • boundary-point regression部分直接預測點與最近的boundary point的dx和dy,思路清晰且易實現
方法概述

針對任意文字檢測(水平、傾斜、曲文),通過網絡來regress文字的邊界像素點來得到text region。

整個檢測的流程包括:

  1. 特征提取:通過一個類似於Image Pyramid的多通道多尺度網絡來提取不同scale的圖像特征(FPN框架)
  2. 目標預測:預測包括三個分支
    • text region的classification分支
    • 與nearest boundary point之間的x的dis
    • 與nearest boundary point之間的y的dis
  3. 結果輸出:利用Alpha-Shape Algorithm從boundary point set中的得到外邊界凸多邊形

Fig. 1: Scene text detection using the proposed multi-scale shape regression network (MSR): For scene texts with arbitrary orientations and shapes in (a), MSR first predicts dense text boundary points (in red color) as shown in (b) and then locates texts by a polygon (in green color) that encloses all boundary points of each text instance as shown in (c).


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM