【論文閱讀】TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes

本文轉載自查看原文 2018-10-17 10:21 749 文字檢測/ 目標檢測

TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes

ECCV2018

北京大學、face++

思路：

預測文本區域與連接方向，串起來

Pipeline：

網絡細節：

1.基礎網絡采用VGG16

2.輸出大小和原圖一樣（耗內存，慢，但是和小棟工作類似）

輸出細節：

1.過濾文本中心線（相交）

2.文本線生成（過濾后還是一整塊狀態）

(1) 取一點，作垂線定位中心

(2) 沿着預測的角度滑動一定距離（有給計算法則）

(3) 在新的點重復2步驟直到端點

滑動位置計算：

如果點不在區域內，就逐漸減小步長知道在里面或者該點當作端點（沒具體解釋，差不多了）

Label生成

(1) 找出頭尾（兩條邊：前后兩條相鄰邊cos最小）

(2) 畫出中心線上的點（在對應的邊上打格子，取中點連起來）

(3) 縮短中心線（類似EAST），擴大中心線區域（縮短0.5r，擴大0.2r）

損失函數：

實驗數據集：

實驗細節：

實驗結果：

0.SynthText預訓練

1.Total-Text輸入大小512*512，閾值（0.4，0.6），5k次訓練

2.CTW1500輸入大小512*512，閾值（0.4，0.5），5k次訓練

3.ICDAR2015，30K次，（0.4，0.9），輸入大小1280 × 768

4.30K次，（0.4，0.9），輸入大小1280 × 768

4.遷移

總結：

思考：

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。