Tesseract5.0训练字库,提高OCR特殊场景识别率,合并字库(二)


一、准备工作

  需要的文件 tif文件和box文件。

  如果你打标打好了,但是是分批次打标的,那么可以合并字库,我们最初只需要 tif box 文件,如下:

  

 

 

二、生成对应的 .tr 训练文件

  根据不同的tif文件依次使用下面这个命令

  tesseract qyc.word.exp4.tif qyc.word.exp4 nobatch box.train

  完成后效果是这样的,每个组合都会有一个对应的 .tr 文件

  

 

 

三、从所有文件中提取字符

  unicharset_extractor fst.word.exp0.box fst.word.exp1.box fst.word.exp2.box fst.word.exp3.box qyc.word .exp0.box qyc.word.exp4.box

  执行完这个命令会在当前目录生成一个unicharset文件

  

四、生成字体特征文件

  这个是设置字体格式的,会生成一个无后缀名的font+properties文件

  echo word 0 0 0 0 0 > font_properties

 

五、生成聚字符特征文件

  会生成 inttemp、pffmtable、shapetable 三个文件

  mftraining -F font_properties -U unicharset fst.word.exp0.tr fst.word.exp1.tr fst.word.exp2.tr fst.wo rd.exp3.tr qyc.word.exp0.tr qyc.word.exp4.tr

 

六、聚集所有 .tr 文件

  执行下面命令,会生成 normproto 文件。

  cntraining fst.word.exp0.tr fst.word.exp1.tr fst.word.exp2.tr fst.word.exp3.tr qyc.word.exp0.tr qyc.w ord.exp4.tr

 

七、重命名文件,把unicharset,inttemp,normproto,pfftable,shapetable  这五个文件加上前缀word.

  rename unicharset word.unicharset

  剩下四个同上

 

八、合并所有文件,生成一个大的 .traineddata 字库文件

  combine_tessdata word.

  

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM