Tesseract-OCR 訓練教程（二）合並新的訓練文件

本文轉載自查看原文 2018-06-22 15:57 1571

在原有訓練數據的基礎上，如果有新的字符訓練信息需要加入，所有數據重新校准一遍就累死人了。。。。

經研究找到實用合並方法（紅色部分為示例，實際應為你自己生成的文件名）：

在新的訓練數據生成.box 和.tr文件后，

生成字符集 unicharset_extractor add.font.exp0.box new.font.exp0.box

合並訓練數據(.tr)

mftraining -F font_properties -U unicharset -O added.unicharset add.font.exp0.tr new.font.exp0.tr

聚合所有的tr文件：

cntraining add.font.exp0.tr new.font.exp0.tr

重命名文件，我把unicharset, inttemp, normproto, pfftable ，shapetable這幾個文件加了前綴added.（注：added.只是我給合成的字典的命名，個人隨意）

合並所有文件，生成一個大的資庫文件。

命令：combine_tessdata added.

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Tesseract-OCR的簡單使用與訓練 tesseract-OCR識別漢字及訓練 Tesseract-OCR的簡單使用與訓練 Tesseract-OCR 5.0LSTM訓練流程 Tesseract-OCR識別中文與訓練字庫實例 Tesseract-OCR 字符識別---樣本訓練 [轉] 【原創】Tesseract-OCR 3.02 訓練筆記 Tesseract-OCR識別中文與訓練字庫實例深入學習Tesseract-ocr識別中文並訓練字庫的方法 python使用tesseract-ocr完成驗證碼識別（模型訓練和使用部分）