一、論文:
1.EAST——EAST: An Efficient and Accurate Scene Text Detector
2.Fots——FOTS: Fast Oriented Text Spotting with a Unified Network
3.RefineNet——RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation
4..PixelLink——PixelLink: Detecting Scene Text via Instance Segmentation
二、內容:
1.EAST:
1)端到端的檢測方式
2)多層特征融合方式
2.Fots:
與EAST主要區別:
1)檢測+識別端到端,識別提高檢測
2)將特征融合方式改成了去卷積
3)將圖像放大到2560,裁剪塊512->640,寬不變高度隨機0.8-1.2scale
4)用synth800k做預訓練
3.RefineNet:
1)改了特征融合的方式
4.PixelLink:
1)基礎網絡用了VGG,收斂快
2)score map用了兩個channel
3)預測周邊是否是字,最后用opencv算法求最小外接矩形
4)后期規則過濾
三、總結
1)EAST這種端到端,先卷積再特征融合的直接回歸方式預計會成為以后檢測的主流。
2)改進的點,無非在前置網絡和特征融合方式上,其他就是數據集的處理。
3)貌似這種方式已經突破不了發不了文章了。