TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes
ECCV2018
北京大學、face++
思路:
預測文本區域與連接方向,串起來
Pipeline:
- 通過FCN+FPN網絡
- 預測TR(文本域)、TCL(文本中心線)、角度、半徑
- 過濾文本線,后處理
網絡細節:
1.基礎網絡采用VGG16
2.輸出大小和原圖一樣(耗內存,慢,但是和小棟工作類似)
輸出細節:
1.過濾文本中心線(相交)
2.文本線生成(過濾后還是一整塊狀態)
(1) 取一點,作垂線定位中心
(2) 沿着預測的角度滑動一定距離(有給計算法則)
(3) 在新的點重復2步驟直到端點
滑動位置計算:
如果點不在區域內,就逐漸減小步長知道在里面或者該點當作端點(沒具體解釋,差不多了)
Label生成
- 文本線:
(1) 找出頭尾(兩條邊:前后兩條相鄰邊cos最小)
(2) 畫出中心線上的點(在對應的邊上打格子,取中點連起來)
(3) 縮短中心線(類似EAST),擴大中心線區域(縮短0.5r,擴大0.2r)
- 半徑:到邊的距離
- 角度:
損失函數:
- 系數均為1
- TR分類用的是OHEM,TCL損失只考慮TR區域內的
實驗數據集:
- TotalText(彎曲)
- CTW1500(彎曲)
- ICDAR2015(多方向)
- MSRA-TD500(水平)
實驗細節:
- 數據增強,縮放比0.24-1.69,隨機旋轉,還有顏色模糊高斯噪聲等增強
- Tensorflow1.3
- GPU Titan X*2
- 學習率0.0001每5000次衰減0.8
- Batch size 32
實驗結果:
0.SynthText預訓練
1.Total-Text輸入大小512*512,閾值(0.4,0.6),5k次訓練
2.CTW1500輸入大小512*512,閾值(0.4,0.5),5k次訓練
3.ICDAR2015,30K次,(0.4,0.9),輸入大小1280 × 768
4.30K次,(0.4,0.9),輸入大小1280 × 768
4.遷移
總結:
- 學習任務擬人化
- 角度的預測有cos和sin
- 放大的map
思考:
- 增加標注信息,精確到字符
- 角度上更擬人一點,從左往右從上到下