Tesseract5.0訓練字庫，提高OCR特殊場景識別率，合並字庫（二）

本文轉載自查看原文 2019-09-16 15:19 500 OCR

一、准備工作

　　需要的文件 tif文件和box文件。

　　如果你打標打好了，但是是分批次打標的，那么可以合並字庫，我們最初只需要 tif 和 box 文件，如下：

二、生成對應的 .tr 訓練文件

　　根據不同的tif文件依次使用下面這個命令

　　tesseract qyc.word.exp4.tif qyc.word.exp4 nobatch box.train

　　完成后效果是這樣的，每個組合都會有一個對應的 .tr 文件

三、從所有文件中提取字符

　　unicharset_extractor fst.word.exp0.box fst.word.exp1.box fst.word.exp2.box fst.word.exp3.box qyc.word .exp0.box qyc.word.exp4.box

　　執行完這個命令會在當前目錄生成一個unicharset文件

四、生成字體特征文件

　　這個是設置字體格式的，會生成一個無后綴名的font+properties文件

　　echo word 0 0 0 0 0 > font_properties

五、生成聚字符特征文件

　　會生成 inttemp、pffmtable、shapetable 三個文件

　　mftraining -F font_properties -U unicharset fst.word.exp0.tr fst.word.exp1.tr fst.word.exp2.tr fst.wo rd.exp3.tr qyc.word.exp0.tr qyc.word.exp4.tr

六、聚集所有 .tr 文件

　　執行下面命令，會生成 normproto 文件。

　　cntraining fst.word.exp0.tr fst.word.exp1.tr fst.word.exp2.tr fst.word.exp3.tr qyc.word.exp0.tr qyc.w ord.exp4.tr

七、重命名文件，把unicharset,inttemp,normproto,pfftable,shapetable 這五個文件加上前綴word.

　　rename unicharset word.unicharset

　　剩下四個同上

八、合並所有文件，生成一個大的 .traineddata 字庫文件

　　combine_tessdata word.

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Tesseract5.0訓練字庫，提高OCR特殊場景識別率（一） Tesseract4.0 5.0訓練字庫 OCR 提高識別率必備(超詳情) 一、Tesseract4.0訓練字庫 OCR 提高識別率必備(超詳情) Tesseract4.0訓練字庫 OCR 提高識別率必備 Tesseract_ocr 字符識別基礎及訓練字庫、合並字庫 Tesseract-OCR4.0識別中文與訓練字庫實例 Tesseract-OCR識別中文與訓練字庫實例 Tesseract-OCR識別中文與訓練字庫實例深入學習Tesseract-ocr識別中文並訓練字庫的方法 Tesseract-OCR-v5.0中文識別,訓練自定義字庫,提高圖片的識別效果