Tesseract_OCR 合並字庫


1.前期准備工作:

    1.需要生成的字符集    .tif文件,位置文件     .box文件

   現在有三個需要合並的字典

(1).(zwp1.test.exp0.tif,zwp1.test.exp0.box)

(2).(zwp82.test.exp0.tif,zwp83.test.exp0.box)

 (3).  (zwp83.test.exp0.tif,  zwp83.test.exp0.box)

 

box和tif文件

 

2.合並過程:

  1、先生成相對應的 .tr 文件(如果你之前訓練的.tr 有的話,可以忽略這步)

   tesseract zwp1.test.exp0.tif zwp1.test.exp0 nobatch box.train

   tesseract zwp82.test.exp0.tif zwp82.test.exp0 nobatch box.train

   tesseract zwp83.test.exp0.tif zwp83.test.exp0 nobatch box.train

生成.tr文件

2、從所有文件中提取字符

   unicharset_extractor zwp1.test.exp0.box zwp82.test.exp0.box zwp83.test.exp0.box

所有文件中提取字符

3、生成字體特征文件

   新建的font.txt文件,在文件中把所有box文件對應的字體特征都加進去(如果不知道,可以去原來考出來的字庫文件找font_properties文件查看)

   test 0 0 0 0 0

   test 0 0 0 0 0

   test 0 0 0 0 0

然后執行如下命令:

   mftraining -F font.txt -U unicharset zwp1.test.exp0.tr zwp82.test.exp0.tr zwp83.test.exp0.tr

生成字體特征文件

4 、聚集所有.tr 文件

   cntraining zwp1.test.exp0.tr zwp82.test.exp0.tr zwp83.test.exp0.tr

聚集所有.tr 文件

5 、重命名文件,把unicharset, inttemp, normproto, pfftable,shapetable 這幾個文件加了前綴zwpnew. (目的是為了后面的聚集合並)

   rename normproto zwpnew.normproto

   rename inttemp zwpnew.inttemp

   rename pffmtable zwpnew.pffmtable

   rename shapetable zwpnew.shapetable

   rename unicharset zwpnew.unicharset

重命名文件

6、合並所有文件 生成一個大的字庫文件

   combine_tessdata zwpnew.

合並文件

7、最后文件夾中就可以看到生成的.traineddata訓練庫

.traineddata訓練庫

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM