tesseract-OCR識別漢字及訓練

本文轉載自查看原文 2017-12-02 20:41 1333 相關技術

直接上干的步聚如下：

為了方便 tif文面命名格式[lang].[fontname].exp[num].tif
lang是語言 fontname是字體
比如我們要訓練自定義字庫 qiny 字體名MyFont
那么我們把tif文件重命名 qiny.MyFont.exp0.tif

1.准備jTessBoxEditor-1.6

2.下載tesseract 4.0

3. 制作需要認別的漢字TIF圖片，直接用PS生成TIF即可 qiny.MyFont.exp0.tif

使用下面的方式糾正文字

如下為訓練的字：

4.啟動jTessBoxEditor-1.6

使用qiny.MyFont.exp0.tif生成：

qiny.MyFont.exp0.box

qiny.font_properties

5.把如下三個文件COPY到如下目錄中

6. 生成字庫：

1、tesseract qiny.MyFont.exp0.tif qiny.MyFont.exp0 -l chi_sim batch.nochop makebox

該步驟會生成一個qiny.MyFont.exp0.box文件,把tif文件和box文件放在同一目錄，用jTessBoxEditor.jar打開tif文件，然后根據實際情況修改box文件

這一步在第四步中已經做出業就不用再做了，直接從第二步開始就可以了。

2、tesseract qiny.MyFont.exp0.tif qiny.MyFont.exp0 box.train
該步驟生成一個qiny.MyFont.exp0.tr文件
不加tesseract qiny.MyFont.exp0.tif qiny.MyFont.exp0 nobatch box.train
這句執行不了
3、unicharset_extractor qiny.MyFont.exp0.box
該步驟生成一個unicharset文件
4、新建一個font_properties文件
里面內容寫入MyFont 0 0 0 0 0 表示默認普通字體
5、運行命令
shapeclustering -F qiny.font_properties -U unicharset qiny.MyFont.exp0.tr
mftraining -F qiny.font_properties -U unicharset -O qiny.unicharset qiny.MyFont.exp0.tr
cntraining qiny.MyFont.exp0.tr
6、把目錄下的unicharset、inttemp、pffmtable、shapetable、normproto這五個文件前面都加上qiny.
7、執行combine_tessdata qiny.
然后把image.traineddata放到tessdata目錄
8、用新的字庫對圖片進行分析
tesseract qiny.MyFont.exp0.tif output -l qiny

7.效果：

這樣就可以認別出訓練的字了

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Tesseract-OCR識別中文與訓練字庫實例 Tesseract-OCR 字符識別---樣本訓練 [轉] Tesseract-OCR識別中文與訓練字庫實例圖片文字OCR識別-tesseract-ocr Tesseract-OCR的簡單使用與訓練 Tesseract-OCR的簡單使用與訓練 Tesseract-OCR字符識別簡介基於tesseract-OCR進行中文識別使用Tesseract-Ocr識別數字深入學習Tesseract-ocr識別中文並訓練字庫的方法