論文閱讀(Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition)


白翔的CRNN論文閱讀

 

1.  論文題目

Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

2.  論文思路和方法

1)  問題范圍: 單詞識別

2)  CNN層:使用標准CNN提取圖像特征,利用Map-to-Sequence表示成特征向量;

3)  RNN層:使用雙向LSTM識別特征向量,得到每列特征的概率分布;

4)  Transcription層:利用CTC和前向后向算法求解最優的label序列;

3.  亮點和創新點

1)  端到端可訓練(把CNN和RNN聯合訓練)

2)  任意長度的輸入(圖像寬度任意,單詞長度任意)

3)  訓練集無需有字符的標定

4)  帶字典和不帶字典的庫(樣本)都可以使用

5)  性能好,而且模型小(參數少)

4.  相關鏈接

1)   白翔的個人主頁:http://mc.eistar.net/~xbai/

2)   論文的下載地址:https://arxiv.org/pdf/1507.05717v1.pdf

3)   代碼的下載地址:

http://mc.eistar.net/~xbai/CRNN/crnn_code.zip

5.  論文細節

1)   論文的框架

 

2)   特征提取層

3)   序列標定層

4)   翻譯層

5)   網絡訓練

 

6)   實驗

 

7)   總結

 

8)   問題





免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM