Tesseract_ocr 字符識別基礎及訓練字庫、合並字庫

本文轉載自查看原文 2017-12-07 14:42 3662 tesseract_ocr合並字庫

字符訓練網上一搜一大堆，但作為一個初學者而言，字符合並網上卻寫的很籠統

首先，需要生成的字符集.tif文件，位置文件 .box ,只要有這兩個文件在，就可以合並字典（這個說的很有道理的樣子）

好了，我現在有三個需要合並的字典

（1）.（why3.楷體.exp0.tif，why3.楷體.exp0.box）

（2）.（why4.microsoftyaheiuilight.exp0.tif，why4.microsoftyaheiuilight.exp0.box）

（3）. (why5.隸書b.exp0.tif,why5.隸書b.exp0.box)

1、先生成相對應的 .tr 文件
//自己的命令根據自己的情況進行修改

tesseract why3.楷體.exp0.tif why3.楷體.exp0 nobatch box.train
tesseract why4.microsoftyaheiuilight.exp0.tif why4.microsoftyaheiuilight.exp0 nobatch box.train
tesseract why5.隸書b.exp0.tif why5.隸書b.exp0 nobatch box.train

2、從所有文件中提取字符

//自己的命令根據自己的情況進行修改

unicharset_extractor why3.楷體.exp0.box why4.microsoftyaheiuilight.exp0.box why5.隸書b.exp0.box

3、生成字體特征文件

新建的font.txt文件，在文件中把所有box文件對應的字體特征都加進去（如果不知道，可以去原來考出來的字庫文件找.font_properties文件查看）

楷體 0 0 0 0 0
microsoftyaheiuilight 0 0 0 0 0
隸書b 0 1 0 0 0

寫完之后，執行如下命令：

mftraining -F font.txt -U unicharset why3.楷體.exp0.tr why4.microsoftyaheiuilight.exp0.tr why5.隸書b.exp0.tr

4 、聚集所有.tr 文件

cntraining why3.楷體.exp0.tr why4.microsoftyaheiuilight.exp0.tr why5.隸書b.exp0.tr

5 、重命名文件，我把unicharset, inttemp, normproto, pfftable，shapetable 這幾個文件加了前綴why. （自己定，隨意） //我加的是together.

6、合並所有文件生成一個大的字庫文件

combine_tessdata together.

目錄下生成的結果如下：

把合並字庫拷進如下目錄：

測試圖片如下：

執行如下代碼：

# coding=utf-8
__author__ = 'syq'

#https://github.com/tesseract-ocr
import sys
import importlib
#reload(sys)
importlib.reload(sys);
#sys.setdefaultencoding('utf-8')

import os;
os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'
try:
    from pyocr import pyocr
    from PIL import Image
except ImportError:
    print('模塊導入錯誤,請使用pip安裝,pytesseract依賴以下庫：')
    print('http://www.lfd.uci.edu/~gohlke/pythonlibs/#pil')
    print('http://code.google.com/p/tesseract-ocr/')
    raise SystemExit
tools = pyocr.get_available_tools()[:]
if len(tools) == 0:
    print("No OCR tool found")
    sys.exit(1)
print("Using '%s'" % (tools[0].get_name()))
print(tools[0].image_to_string(Image.open('pic\\123.png'),lang='together'))

結果如下：

效果還可以，厲害了

參考：http://blog.csdn.net/dragoo1/article/details/8439272

http://www.lxway.com/815805156.htm

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Tesseract5.0訓練字庫，提高OCR特殊場景識別率，合並字庫（二）一、Tesseract4.0訓練字庫 OCR 提高識別率必備(超詳情) Tesseract4.0訓練字庫 OCR 提高識別率必備 Tesseract-OCR字符識別簡介 Tesseract-ocr自己做訓練樣本庫來進行字符識別 Java OCR tesseract 圖像智能字符識別技術 Java實現 Tesseract識別圖片提取文字&字庫訓練 Tesseract-OCR-v5.0中文識別,訓練自定義字庫,提高圖片的識別效果字符識別OCR原理及應用實現 tesseract-OCR識別漢字及訓練