Xiang Bai——【CVPR2015】Symmetry-Based Text Line Detection in Natural Scenes
目錄
- 作者和相關鏈接
- 方法概括
- 創新點和貢獻
- 方法細節
- 實驗結果
- 問題討論
- 總結與收獲點
- 參考文獻
-
作者和相關鏈接
- 作者
-
方法概括
- Step 1: 采用多尺度滑窗檢測文本線的中心像素點,用對稱特征和表觀特征訓練的隨機森林得到候選的字符像素區域(兩種特征是作者自己提的,文章亮點所在);
- Step 2: 利用字符像素的角度和距離約束,將候選字符像素點聚合成字符串區域;
- Step 3: 用兩個CNN分類器,字符級和字符串級,過濾非字符串區域,並采用常規的方法將文本線切成單詞(不是重點,很簡略)
Figure 2. Schematic pipeline of our symmetry-based text-line detection algorithm. (a) Input image; (b) Response map of the symmetry detector; (c) Symmetrical point grouping; (d) Estimated
bounding boxes based on the detected symmetrical axes. (e) Detection result after false alarm removal.
-
創新點和貢獻
- idea出發點:人眼看圖像中是否有文字,不需要逐字確認,甚至只需一瞥就可以確定,這是因為文字區域本身具有和背景不同的對稱性和自相似性。也就是說,想確定文字區域,可以從通過兩個角度出發,第一,不檢測單個文字,而是檢測整個文字串,利用整個串的整體信息;第二,尋找文字串本身的特性,對稱性(上下)和自相似性(內部相同,但是和背景不同)
Figure 1. Though the sizes of the characters within the yellow rectangles are small, human can easily discover and localize such text lines.
-
- 創新點:
- 提出了針對文字串(character group)的對稱性(symmetry)特征;
- 和傳統方法不同,不通過檢測字符,筆畫來確定文字區域,而是檢測文字串
- 創新點:
-
方法細節
1. Symmetry-based 文本線候選區域生成
-
- feature extraction
- Symmetry template
- (x,y)表示大矩形(4s*4s)的中心點
- 最小矩形大小為4s*s,包括RT,RMT,RMB,RB四個矩形
- 中間矩形為紅色區域,大小為4s*2s,包括RM(由RMT,RMB兩個矩形合成)
- Symmetry template
- feature extraction
Figure 3. Left: Template used to compute the features for symmetry axis detection, which consists of four rectangles with equal size. The height and the width of each rectangle are s and 4s, respectively. The scale of the template is determined by s. Right: The contents within the two middle rectangles are similar to each other but dissimilar to the contents of the top and bottom rectangles. Therefore, the symmetry response on the center line (the adjacent edge of the two middle rectangles) of the text region should be high.
-
-
- Symmetry feature
- 每個矩形的特征直方圖定義如下,c表示某一種特征(直方圖表示)
- Symmetry feature
-
-
-
-
- c的含義(共5中特征)
- brightness-L*:LAB顏色空間中的L,32bin
- color-a* :LAB顏色空間中的a,32bin
- color-b* :LAB顏色空間中的b,32bin
- texture-T* :文獻1中提取的紋理特征,?bin
- gradient-G* :梯度特征,16bin
- 三種直方圖的對稱性特征
- 文字區域的上半部和下半部的對稱性:
- 文字區域的上半部與背景的差異:
- 文字區域的下半部與背景的差異:
- 文字區域的上半部和下半部的對稱性:
- 總的symmetry feature的特征維度
- 5種cue*3種對稱性= 15維
- c的含義(共5中特征)
- appearance feature: 采用文獻2的LBP算法,取59個bin
- total feature calculation : 15維symmetry feature + 59維的appearance feature = 74維特征(注意特征是對每個中心點的特征)
-
-
-
- symmetry axis detection
-
-
- 分類器:random forest-50
- 樣本:
- 正樣本:距離groundTruth小於2個pixels的像素點,共45萬個
- 負樣本:距離groundTruth大於5個pixels的像素點,共45萬個
- 訓練尺度:
- 正樣本:1種尺度,s等於groundTruth的bounding box的高度的一半
- 負樣本:24種尺度,s= [2,256]
- 測試尺度:24種尺度,多種尺度進行非極大值抑制
- proposals generation
- group pixels into fragments
- 像素距離小於3的合並成fragments
- aggregate the fragments into text lines
- 把fragments聚成文本線,采用圖模型的方法,每個fragment看成一個節點,每兩個fragment的相似性看成邊,找出每個連通子圖即為每個文本線 兩個fragment的相似性度量(A和B表示兩個fragment,Φ表示每個fragment的角度)
- angular diference constraint:
- group pixels into fragments
-
-
-
-
-
- distance constraint
-
-
-
2. 用CNN進行文本線噪聲過濾
-
- 先用字符級CNN過濾,再用單詞級CNN過濾(文中沒有提到有關CNN的相關細節)
- 字符級樣本:文獻3的字符數據庫
- 單詞級樣本:ICDAR2011,SVT, IIIT5K-word,PASCAL-VOC, BSD500的樣本
- 文本線切分成單詞的方法參考文獻3
3. 多尺度進行檢測
Figure 4. Procedure of text line proposal generation. (a) Input image. (b) Feature extraction at multiple scales. (c) Symmetry probability maps. (d) Axes sought in the symmetry probability maps. (e) Bounding box estimation. (f) Proposals from different scales
-
實驗結果
- 實驗速度:平均30s每張圖(Matlab, 2.0GHz 8-core CPU, 64G RAM and Windows 64-bit OS)
- Symmetry和Appearance特征的實驗效果
-
- ICDAR2011
-
- ICDAR2013
-
- SVT
-
- 其他語言的擴展
-
問題討論
- 本方法的不足
- 速度慢
- 只能處理水平、近水平的文字
- 本方法的不足
-
總結與收獲點
- 現在的文字檢測方法越來越偏向於利用文字上下文信息檢測文本,都喜歡一開始就檢測文本塊,文本行,而不再像原來一樣先檢測單個字符,因為這種方法確實更魯棒
- 文字的對稱性特征挺好的,從低級特征中提取,可以擴展到其他問題中,先mark
- 文中舉出了一些文字檢測的難點的案例,非常有代表性
- 對比度低:上圖——(b), (i), 下圖——(c)
- 筆畫斷裂:上圖——(c)
- 光照影響:上圖——(g), 下圖——(a),(b)
- 點矩陣字:上圖——(a),(j)
- 分辨率低:上圖——(g)
- 字符相連:上圖——(h)
- 單個字符:下圖——(f)
- 字符大小差異很大:下圖——(d)
-
參考文獻
- D. R. Martin, C. Fowlkes, and J. Malik. Learning to detect natural image boundaries using local brightness, color, and texture cues. IEEE Trans. Pattern Anal. Mach. Intell., 26(5):530–549, 2004.
- T. Ojala, M. Pietik¨ainen, and T. M¨aenp¨a¨a. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns. IEEE Trans. Pattern Anal. Mach. Intell., 24(7):971–987, 2002.
- M. Jaderberg, A. Vedaldi, and A. Zisserman. Deep features for text spotting. In Proc. of ECCV, 2014.