1.前期准備工作：

1.需要生成的字符集 .tif文件，位置文件 .box文件

現在有三個需要合並的字典

（1）.（zwp1.test.exp0.tif，zwp1.test.exp0.box）

（2）.（zwp82.test.exp0.tif，zwp83.test.exp0.box）

（3）. (zwp83.test.exp0.tif, zwp83.test.exp0.box)

box和tif文件

2.合並過程：

1、先生成相對應的 .tr 文件（如果你之前訓練的.tr 有的話，可以忽略這步）

tesseract zwp1.test.exp0.tif zwp1.test.exp0 nobatch box.train

tesseract zwp82.test.exp0.tif zwp82.test.exp0 nobatch box.train

tesseract zwp83.test.exp0.tif zwp83.test.exp0 nobatch box.train

生成.tr文件

2、從所有文件中提取字符

unicharset_extractor zwp1.test.exp0.box zwp82.test.exp0.box zwp83.test.exp0.box

所有文件中提取字符

3、生成字體特征文件

新建的font.txt文件，在文件中把所有box文件對應的字體特征都加進去（如果不知道，可以去原來考出來的字庫文件找font_properties文件查看）

test 0 0 0 0 0

test 0 0 0 0 0

然后執行如下命令：

mftraining -F font.txt -U unicharset zwp1.test.exp0.tr zwp82.test.exp0.tr zwp83.test.exp0.tr

生成字體特征文件

4 、聚集所有.tr 文件

cntraining zwp1.test.exp0.tr zwp82.test.exp0.tr zwp83.test.exp0.tr

聚集所有.tr 文件

5 、重命名文件，把unicharset, inttemp, normproto, pfftable，shapetable 這幾個文件加了前綴zwpnew. (目的是為了后面的聚集合並)

rename normproto zwpnew.normproto

rename inttemp zwpnew.inttemp

rename pffmtable zwpnew.pffmtable

rename shapetable zwpnew.shapetable

rename unicharset zwpnew.unicharset

重命名文件

6、合並所有文件生成一個大的字庫文件

combine_tessdata zwpnew.

合並文件

7、最后文件夾中就可以看到生成的.traineddata訓練庫

.traineddata訓練庫

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Tesseract_ocr 字符識別基礎及訓練字庫、合並字庫 OCR2：tesseract字庫訓練 Tesseract5.0訓練字庫，提高OCR特殊場景識別率，合並字庫（二） [轉]在VS2010下編譯和使用tesseract_ocr Tesseract-OCR4.0識別中文與訓練字庫實例 Tesseract-OCR識別中文與訓練字庫實例 Tesseract-OCR識別中文與訓練字庫實例 Tesseract_OCR技術在Java語言maven項目中使用Tess4j進行實現一、Tesseract4.0訓練字庫 OCR 提高識別率必備(超詳情) Tesseract4.0訓練字庫 OCR 提高識別率必備