圖像文字識別(OCR)用什么算法小結


說明:主要考慮深度學習的方法,傳統的方法不在考慮范圍之內。

1.文字識別步驟

1.1detection:找到有文字的區域(proposal)。

1.2classification:識別區域中的文字。

2.文字檢測

文字檢測主要有兩條線,兩步法和一步法。

2.1兩步法:faster-rcnn.

2.2一步法:yolo。相比於兩步法,一步法速度更快,但是accuracy有損失。

文字檢測按照文字的角度分。

2.1水平文字檢測:四個自由度,類似於物體檢測。水平文字檢測比較好的算法是2016ECCV喬宇老師團隊的CTPN。

2.2傾斜文字檢測:文本框是不規則的四邊形,八個自由度。傾斜文字檢測個人比較喜歡的方法是2017CVPR的EAST和Seglink。套路:檢測文本框->用radon hough變換等方法進行文本矯正->通過投影直方圖分割出單行的文本的圖片->最后對單行OCR。

3.文字識別

只考慮了不需要對文字進行分割。

3.1定長的,各個字符之間看成是獨立的:multi-digit number。

3.2不定長的:RNN/LSTM/GRU+CTC。白翔老師團隊的CRNN寫的比較清楚。

3.3不定長的attention-mechanism(CNN+RNN+Attention):分為hard attention(直接給出hard location,不能直接暴力pb)、soft attention(可以暴力pb)、gradient-base attention。

 

參考:https://www.zhihu.com/question/20191727

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM