Tesseract-OCR 訓練教程(二) 合並新的訓練文件


在原有訓練數據的基礎上,如果有新的字符訓練信息需要加入,所有數據重新校准一遍就累死人了。。。。

經研究找到實用合並方法(紅色部分為示例,實際應為你自己生成的文件名):

在新的訓練數據生成.box 和.tr文件后,

生成字符集 unicharset_extractor add.font.exp0.box new.font.exp0.box

合並訓練數據(.tr)

mftraining -F font_properties -U unicharset -O added.unicharset add.font.exp0.tr new.font.exp0.tr

聚合所有的tr文件

cntraining add.font.exp0.tr new.font.exp0.tr 

重命名文件,我把unicharset, inttemp, normproto, pfftable ,shapetable這幾個文件加了前綴added.(注:added.只是我給合成的字典的命名,個人隨意)

合並所有文件,生成一個大的資庫文件。

命令:combine_tessdata added.

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM