一、准備工作
需要的文件 tif文件和box文件。
如果你打標打好了,但是是分批次打標的,那么可以合並字庫,我們最初只需要 tif 和 box 文件,如下:

二、生成對應的 .tr 訓練文件
根據不同的tif文件依次使用下面這個命令
tesseract qyc.word.exp4.tif qyc.word.exp4 nobatch box.train
完成后效果是這樣的,每個組合都會有一個對應的 .tr 文件

三、從所有文件中提取字符
unicharset_extractor fst.word.exp0.box fst.word.exp1.box fst.word.exp2.box fst.word.exp3.box qyc.word .exp0.box qyc.word.exp4.box
執行完這個命令會在當前目錄生成一個unicharset文件
四、生成字體特征文件
這個是設置字體格式的,會生成一個無后綴名的font+properties文件
echo word 0 0 0 0 0 > font_properties
五、生成聚字符特征文件
會生成 inttemp、pffmtable、shapetable 三個文件
mftraining -F font_properties -U unicharset fst.word.exp0.tr fst.word.exp1.tr fst.word.exp2.tr fst.wo rd.exp3.tr qyc.word.exp0.tr qyc.word.exp4.tr
六、聚集所有 .tr 文件
執行下面命令,會生成 normproto 文件。
cntraining fst.word.exp0.tr fst.word.exp1.tr fst.word.exp2.tr fst.word.exp3.tr qyc.word.exp0.tr qyc.w ord.exp4.tr
七、重命名文件,把unicharset,inttemp,normproto,pfftable,shapetable 這五個文件加上前綴word.
rename unicharset word.unicharset
剩下四個同上
八、合並所有文件,生成一個大的 .traineddata 字庫文件
combine_tessdata word.

