文字識別:CRNN


 

知乎:一文讀懂CRNN+CTC文本行識別 (詳解 CTC loss)

來自: https://zhuanlan.zhihu.com/p/43534801

代碼:https://github.com/bai-shang/OCR_TF_CRNN_CTC

 

文字檢測主要解決的問題是哪里有文字,文字的范圍有多大,即定位文本行的所在位置和范圍及其布局。

文本識別是在文本行定位的基礎上,對文本行內容進行識別,將圖像中的文本信息轉化為文字信息。文字識別主要解決的問題是每個文字是什么。

所以一般來說,從自然場景圖片中進行文本行識別,需要包括三個步驟:

  • 圖像預處理
  • 文字檢測定位文本行區域
  • 對定位好的文本行圖片進行識別

圖1 文字識別的步驟

本文的重點是如何對已經定位好的文本行圖片進行識別。

常用文本行識別算法主要有兩個框架:

  • CNN+RNN+CTC(CRNN+CTC)
  • CNN+Seq2Seq+Attention

CTC總結

CTC是一種Loss計算方法,用CTC代替Softmax Loss,訓練樣本無需對齊。

CTC特點:

  • 同時引入blank字符,解決有些位置沒有字符的問題
  • 通過遞推,快速計算梯度

......

CRNN+CTC總結

這篇文章的核心,就是將CNN/LSTM/CTC三種方法結合:

  • 首先CNN提取圖像卷積特征
  • 然后LSTM進一步提取圖像卷積特征中的序列特征
  • 最后引入CTC解決訓練時字符無法對齊的問題

提供了一種end2end文本行圖片算算法。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM