【論文閱讀】TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes


 

TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes

ECCV2018

北京大學、face++

 

 

思路:

預測文本區域與連接方向,串起來

 

 

 

Pipeline

 

 

  1. 通過FCN+FPN網絡
  2. 預測TR(文本域)、TCL(文本中心線)、角度、半徑
  3. 過濾文本線,后處理

 

網絡細節:

1.基礎網絡采用VGG16

2.輸出大小和原圖一樣(耗內存,慢,但是和小棟工作類似)

 

 

 

輸出細節:

1.過濾文本中心線(相交)

 

 

2.文本線生成(過濾后還是一整塊狀態)

(1) 取一點,作垂線定位中心

(2) 沿着預測的角度滑動一定距離(有給計算法則)

(3) 在新的點重復2步驟直到端點

 

 

 

滑動位置計算:

 

 

 

如果點不在區域內,就逐漸減小步長知道在里面或者該點當作端點(沒具體解釋,差不多了)

 

 

 

Label生成

  1. 文本線:

(1) 找出頭尾(兩條邊:前后兩條相鄰邊cos最小)

(2) 畫出中心線上的點(在對應的邊上打格子,取中點連起來)

(3) 縮短中心線(類似EAST),擴大中心線區域(縮短0.5r,擴大0.2r

 

 

  1. 半徑:到邊的距離
  2. 角度:

 

 

 

損失函數:

  1. 系數均為1
  2. TR分類用的是OHEMTCL損失只考慮TR區域內的

 

 

 

 

 

 

 

實驗數據集:

  1. TotalText(彎曲)
  2. CTW1500(彎曲)
  3. ICDAR2015(多方向)
  4. MSRA-TD500(水平)

 

 

實驗細節:

  1. 數據增強,縮放比0.24-1.69,隨機旋轉,還有顏色模糊高斯噪聲等增強
  2. Tensorflow1.3
  3. GPU Titan X*2
  4. 學習率0.00015000次衰減0.8
  5. Batch size 32

 

 

實驗結果:

0.SynthText預訓練

1.Total-Text輸入大小512*512,閾值(0.40.6),5k次訓練

 

 

 

2.CTW1500輸入大小512*512,閾值(0.40.5),5k次訓練

 

 

 3.ICDAR201530K次,(0.40.9),輸入大小1280 × 768

 

 

 

4.30K次,(0.40.9),輸入大小1280 × 768

 

 

4.遷移

 

 

 

 

 

總結:

  1. 學習任務擬人化
  2. 角度的預測有cossin
  3. 放大的map

 

思考:

  1. 增加標注信息,精確到字符
  2. 角度上更擬人一點,從左往右從上到下

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM