論文閱讀(Xiang Bai——【CVPR2012】Detecting Texts of Arbitrary Orientations in Natural Images)


Xiang Bai——【CVPR2012】Detecting Texts of Arbitrary Orientations in Natural Images


 

目錄

  • 作者和相關鏈接
  • 方法概括
  • 方法細節
  • 創新點和貢獻
  • 實驗結果
  • 問題討論
  • 總結與收獲點

 

  • 作者和相關鏈接 

              

  • 方法概括

  1. 方法簡述:
    • 使用SWT提取候選區域,用字符級分類器(簡單特征+隨機森林)過濾非字符區域;
    • 利用字符間相似性連接成字符串,再用字符串級的分類器(簡單特征+隨機森林)過濾非文字串。
  2. 方法流程圖:

圖1. 流程圖

  • 方法細節

    • 提取候選字符區域
      • canny邊緣檢測
      • SWT
      • 連通分量聚合(相鄰筆畫寬度小於3倍)

圖2. 提取候選字符區域的三個步驟效果圖

    • 組件分析(組件級噪聲過濾)
      • 啟發式規則過濾(特征:寬度方差,長寬比,占比;設定閾值范圍)

      • 組件級分類器過濾(特征:6種自己提的分量級特征;分類器:隨機森林)
        • 特征:輪廓形狀,邊緣形狀,占比,軸比,寬度方差,密度

圖3. 組件級特征計算,(a)為模板,(b)為模板疊加在原圖的示例圖,(c)、(d)、(e)分別用來計算輪廓形狀特征,邊緣形狀特征,占比特征

  • 如上圖所示,(a)為兩種模板。上面是只有一種半徑,一個扇形區域(整個圓),下面是有兩種半徑,共八個扇形區域(4個小的,4個大的)。每個扇形區域單獨計算直方圖(邊緣,輪廓,占比),然后把每個區域的直方圖串起來作為整個圖的特征。(b)為在一個原圖上疊加一種模板的示例圖。(c)圖為輪廓圖上疊加兩種模板的示例圖。(d)為邊緣圖上疊加兩種模板的示例圖。(e)為二值圖上疊加模板的示例圖。
  • 實際計算特征(比如,邊緣特征)的時候,第一,先利用Camshift計算出每個連通分量的質心,尺度(最大軸與最小軸的和),方向(角度);第二,各種梯度方向都按照第一步求出的方向進行旋轉(為了和模板對齊),並歸一到[0,Π]上;第三,將模板中心固定在質心上,模板半徑為尺度的大小,統計模板上每個sector的(輪廓形狀,邊緣形狀,占比)直方圖,並把每個sector的直方圖串起來形成特征向量。


 

圖4. 組件級噪聲過濾(組件分析)的效果,(e)圖為規則過濾,(f)為分類器過濾,經過兩層過濾后大部分非文字的組件都被過濾掉了

    • 候選區域連接
      • 兩兩組隊pair(相似性度量:筆畫寬度,大小,顏色,距離;設定閾值范圍)
      • 聚類
        1. 至少包含一個公共組件
        2. 相似性度量:方向一致,群體一致(組件個數差異小)

          • 公式(1)中的So表示的是方向一致性,C1和C2是兩個不同的chain,初始每個chain就是由兩個相似組件得到的一個pair,γ(C1,C2)表示的是C1和C2之間的夾角(每條chain利用線性最小二乘法擬合出一條直線。兩個chain的夾角就表示這兩條直線間的夾角)。So是保證要聚類的兩個chain的方向盡可能一致。
          • 公式(2)中的Sp表示的是群體一致性,nC1是C1中組件的個數。Sp是保證要聚類的兩個chain的個數差異不要太大。
          • 公式(3)中的S是總的相似性度量的標准,是So和Sp的加權求和。每次要聚類時都是選擇使得S最大的兩個chain進行合並,這樣采用自底向上進行合並的方式可以適用於任意方向,而不單純是水平(或近似水平),甚至可以處理豎直,斜線的,更重要一點是,把在閾值范圍內可能形成直線的組合都找的出來。如圖5所示。

圖5. 候選區域連接的效果,不但找到了PRIVATE,CAR等水平的,還找出了PCO,PRL這樣的潛在的組合

    • 鏈分析(鏈級噪聲過濾)
      • 鏈級特征:11種特征
        1. 鏈中候選區域個數
        2. 平均概率(組件級分類器打分)
        3. 平均轉角(每個組件與左右相鄰組件形成的直線的夾角)
        4. 大小方差(每個組件的尺度)
        5. 距離方差(質心的歐氏距離)
        6. 平均角度偏差(每個組件的最大軸方向與擬合出的鏈的直線方向的垂直方向間的角度偏差)
        7. 平均軸比
        8. 平均密度
        9. 平均寬度方差
        10. 平均顏色自相似性(顏色直方圖的cosine相似性)
        11. 平均結構自相似性(邊緣形狀描述子的cosine相似性)
      • 分類器:隨機森林
    • 新的數據庫和評價標准
      • MSRA-TD數據庫
      • 樣本數:train-300,test-200
      • 語言:中文,英文,中英混合
      • 標注粒度:文本線(無字符,單詞級標注)
      • 圖像大小:1296*864~1920*1280
      • 標注矩形類別:最小面積矩形(mini area rectangle)
      • 評價標准:

        • 上圖中(c)所示,G和D分別為groundTruth和detection的bounding box。由於兩個都是斜的,直接計算交並比意義不大,故先求出兩個box的角度(相對於水平方向的旋轉角度),並將其轉至水平,如圖中的虛線圖G'和D',再通過計算G'和D'的交並比來判斷。
        • 檢測正確的標准是:(1) G和D的旋轉角度差的絕對值小於Π/8;(2)G'和D'的交並比大於0.5;
  • 創新點和貢獻

    • 解決的問題角度新:從一般的水平或近水平文字檢測到任意方向的文字檢測(直線)
    • 提出了兩級分類機制,尤其是其中的字符特征:組件級特征與鏈級特征
    • 介紹了專門用來檢測任意方向的文字的新的MSRA-TD數據庫:針對任意方向的文字檢測的數據庫,切提出了新的評價標准
  • 實驗結果

    • ICDAR03, detection:

 

    • MSRA-TD, detection:

 

    • OSTD:

 

  • 問題討論

    • 為什么文中的方法可以用來檢測各種方向的文字?
      • 特征的旋轉不變性,尺度不變性;
      • 字符鏈形成算法比較通用,適用於各種方向,不一定是水平或者豎直。
    • 組件級分類器正樣本怎么獲得?(MSRA-TD庫上只有鏈級的標注)
    • 鏈級分類器的正樣本怎么獲得?(ICDAR03庫上最多只有單詞級標注,沒有包含多個單詞的鏈級樣本,是否采用簡單規則先把groundTruth進行合並?)
    • mini area rectangle的原理?(如何從四個點得到一個包含這四個點的最小面積矩形?)
    • 長軸和短軸指的是字符的豎直和水平?(不是對角線?)
    • 如何用Camshift得到質心,方向,和長短軸?
  • 總結與收獲點

    • 這篇做文字檢測的方法思路很傳統,從字符到字符串,然后給字符和字符串分別用一個分類器過濾噪聲。比較有用的有三點,第一,整理的這些字符特征都是人工,經驗得到的,簡單有效;第二,字符鏈的形成算法有一定借鑒意義;第三,新的數據庫和評價標准成為了后來檢測多方向的主流。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM