文字識別,涵蓋了直排文字、彎曲文字,也有基於偏旁部首的方法。
RARE
白翔
Robust Scene Text Recognition with Automatic Rectification
https://github.com/guojm14/TPS-SRN-tensorflow
irregular text、including perspective text and curved text、end-to-end
先對不規則的文本進行校正,然后識別。
一下內容來自 https://blog.csdn.net/rabbithui/article/details/78853649
文章提出RARE模型實現對不規則文本的end-to-end文字識別,RARE由STN(Spatial Transformer Network)和SRN(Sequence Recognition Network)組成。STN用於對輸入的不規則文本進行矯正,得到形狀規則的文本作為SRN的輸入,SRN是一個基於注意力機制的網絡結構,實現sequence to sequence的文本識別。
文章中的訓練數據為8百萬的合成樣本數據,輸入圖像均resize到100×32,STN的輸出size也是100×32。
AON
AON: Towards Arbitrarily-Oriented Text Recognition
https://github.com/huizhang0110/AON
irregular texts、attention-based、end-to-end
也是使用STN對不規則文本進行校正
參考 https://blog.csdn.net/xuningli84019582/article/details/90441306
整個模型分為三個部分,
(1)BCNN基本CNN層用來對input image提取出feature map,
(2)AON+FG是本算法的核心,基本思路是將文本方向分為Left2Right,Right2Left,Bottom2Top,Top2Bottom,對這四個方向提取四個sequence vector和一個權重向量,在FG層將四個sequence和權重進行組合形成最終的sequence,
(3)然后輸入帶有Attention機制的Decoder從而輸出最終文本。
ASTER
白翔
ASTER: An Attentional Scene Text Recognizer with Flexible Rectification
https://github.com/ayumiymk/aster.pytorch
端到端的識別系統。
也是使用STN對不規則文本進行校正
https://blog.csdn.net/alibabazhouyu/article/details/82778357
參考 https://www.cnblogs.com/lillylin/p/9315180.html
針對不規則文字,先矯正成正常線性排列的文字,再識別;
整合矯正網絡和識別網絡成為一個端到端網絡來訓練;
矯正網絡使用STN,識別網絡用經典的sequence to sequence + attention