Tesseract5.0訓練字庫,提高OCR特殊場景識別率,合並字庫(二)


一、准備工作

  需要的文件 tif文件和box文件。

  如果你打標打好了,但是是分批次打標的,那么可以合並字庫,我們最初只需要 tif box 文件,如下:

  

 

 

二、生成對應的 .tr 訓練文件

  根據不同的tif文件依次使用下面這個命令

  tesseract qyc.word.exp4.tif qyc.word.exp4 nobatch box.train

  完成后效果是這樣的,每個組合都會有一個對應的 .tr 文件

  

 

 

三、從所有文件中提取字符

  unicharset_extractor fst.word.exp0.box fst.word.exp1.box fst.word.exp2.box fst.word.exp3.box qyc.word .exp0.box qyc.word.exp4.box

  執行完這個命令會在當前目錄生成一個unicharset文件

  

四、生成字體特征文件

  這個是設置字體格式的,會生成一個無后綴名的font+properties文件

  echo word 0 0 0 0 0 > font_properties

 

五、生成聚字符特征文件

  會生成 inttemp、pffmtable、shapetable 三個文件

  mftraining -F font_properties -U unicharset fst.word.exp0.tr fst.word.exp1.tr fst.word.exp2.tr fst.wo rd.exp3.tr qyc.word.exp0.tr qyc.word.exp4.tr

 

六、聚集所有 .tr 文件

  執行下面命令,會生成 normproto 文件。

  cntraining fst.word.exp0.tr fst.word.exp1.tr fst.word.exp2.tr fst.word.exp3.tr qyc.word.exp0.tr qyc.w ord.exp4.tr

 

七、重命名文件,把unicharset,inttemp,normproto,pfftable,shapetable  這五個文件加上前綴word.

  rename unicharset word.unicharset

  剩下四個同上

 

八、合並所有文件,生成一個大的 .traineddata 字庫文件

  combine_tessdata word.

  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM