白翔的CRNN論文閱讀
1. 論文題目
Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition
2. 論文思路和方法
1) 問題范圍: 單詞識別
2) CNN層:使用標准CNN提取圖像特征,利用Map-to-Sequence表示成特征向量;
3) RNN層:使用雙向LSTM識別特征向量,得到每列特征的概率分布;
4) Transcription層:利用CTC和前向后向算法求解最優的label序列;
3. 亮點和創新點
1) 端到端可訓練(把CNN和RNN聯合訓練)
2) 任意長度的輸入(圖像寬度任意,單詞長度任意)
3) 訓練集無需有字符的標定
4) 帶字典和不帶字典的庫(樣本)都可以使用
5) 性能好,而且模型小(參數少)
4. 相關鏈接
1) 白翔的個人主頁:http://mc.eistar.net/~xbai/
2) 論文的下載地址:https://arxiv.org/pdf/1507.05717v1.pdf
3) 代碼的下載地址:
http://mc.eistar.net/~xbai/CRNN/crnn_code.zip
5. 論文細節
1) 論文的框架
2) 特征提取層
3) 序列標定層
4) 翻譯層
5) 網絡訓練
6) 實驗
7) 總結
8) 問題