直接上干的步聚如下:
為了方便 tif文面命名格式[lang].[fontname].exp[num].tif
lang是語言 fontname是字體
比如我們要訓練自定義字庫 qiny 字體名MyFont
那么我們把tif文件重命名 qiny.MyFont.exp0.tif
1.准備jTessBoxEditor-1.6
2.下載tesseract 4.0
3. 制作需要認別的漢字TIF圖片,直接用PS生成TIF即可 qiny.MyFont.exp0.tif
使用下面的方式糾正文字

如下為訓練的字:

4.啟動jTessBoxEditor-1.6

使用qiny.MyFont.exp0.tif生成:
qiny.MyFont.exp0.box
qiny.font_properties
5.把如下三個文件COPY到如下目錄中

6. 生成字庫:
1、tesseract qiny.MyFont.exp0.tif qiny.MyFont.exp0 -l chi_sim batch.nochop makebox
該步驟會生成一個qiny.MyFont.exp0.box文件,把tif文件和box文件放在同一目錄,用jTessBoxEditor.jar打開tif文件,然后根據實際情況修改box文件
這一步在第四步中已經做出業就不用再做了,直接從第二步開始就可以了。
2、tesseract qiny.MyFont.exp0.tif qiny.MyFont.exp0 box.train
該步驟生成一個qiny.MyFont.exp0.tr文件
不加tesseract qiny.MyFont.exp0.tif qiny.MyFont.exp0 nobatch box.train
這句執行不了
3、unicharset_extractor qiny.MyFont.exp0.box
該步驟生成一個unicharset文件
4、新建一個font_properties文件
里面內容寫入MyFont 0 0 0 0 0 表示默認普通字體
5、運行命令
shapeclustering -F qiny.font_properties -U unicharset qiny.MyFont.exp0.tr
mftraining -F qiny.font_properties -U unicharset -O qiny.unicharset qiny.MyFont.exp0.tr
cntraining qiny.MyFont.exp0.tr
6、把目錄下的unicharset、inttemp、pffmtable、shapetable、normproto這五個文件前面都加上qiny.
7、執行combine_tessdata qiny.
然后把image.traineddata放到tessdata目錄
8、用新的字庫對圖片進行分析
tesseract qiny.MyFont.exp0.tif output -l qiny
7.效果:

這樣就可以認別出訓練的字了
