Tesseract5.0训练字库，提高OCR特殊场景识别率，合并字库（二）

本文转载自查看原文 2019-09-16 15:19 500 OCR

一、准备工作

　　需要的文件 tif文件和box文件。

　　如果你打标打好了，但是是分批次打标的，那么可以合并字库，我们最初只需要 tif 和 box 文件，如下：

二、生成对应的 .tr 训练文件

　　根据不同的tif文件依次使用下面这个命令

　　tesseract qyc.word.exp4.tif qyc.word.exp4 nobatch box.train

　　完成后效果是这样的，每个组合都会有一个对应的 .tr 文件

三、从所有文件中提取字符

　　unicharset_extractor fst.word.exp0.box fst.word.exp1.box fst.word.exp2.box fst.word.exp3.box qyc.word .exp0.box qyc.word.exp4.box

　　执行完这个命令会在当前目录生成一个unicharset文件

四、生成字体特征文件

　　这个是设置字体格式的，会生成一个无后缀名的font+properties文件

　　echo word 0 0 0 0 0 > font_properties

五、生成聚字符特征文件

　　会生成 inttemp、pffmtable、shapetable 三个文件

　　mftraining -F font_properties -U unicharset fst.word.exp0.tr fst.word.exp1.tr fst.word.exp2.tr fst.wo rd.exp3.tr qyc.word.exp0.tr qyc.word.exp4.tr

六、聚集所有 .tr 文件

　　执行下面命令，会生成 normproto 文件。

　　cntraining fst.word.exp0.tr fst.word.exp1.tr fst.word.exp2.tr fst.word.exp3.tr qyc.word.exp0.tr qyc.w ord.exp4.tr

七、重命名文件，把unicharset,inttemp,normproto,pfftable,shapetable 这五个文件加上前缀word.

　　rename unicharset word.unicharset

　　剩下四个同上

八、合并所有文件，生成一个大的 .traineddata 字库文件

　　combine_tessdata word.

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 一、Tesseract4.0训练字库 OCR 提高识别率必备(超详情) Tesseract4.0训练字库 OCR 提高识别率必备 Tesseract_ocr 字符识别基础及训练字库、合并字库 Tesseract-OCR-v5.0中文识别,训练自定义字库,提高图片的识别效果利用jTessBoxEditor工具进行Tesseract3.02.02样本训练，提高验证码识别率 Tesseract识别图片提取文字&字库训练 Tika结合Tesseract-OCR 实现光学汉字识别（简体、宋体的识别率百分之百）—附Java源码、测试数据和训练集下载地址 tesseract-OCR识别汉字及训练 Tesseract-OCR 训练教程（二）合并新的训练文件 Tesseract OCR 图片文字识别