Tesseract-OCR識別中文與訓練字庫實例

本文轉載自查看原文 2016-10-04 15:20 141129

關於中文的識別，效果比較好而且開源的應該就是Tesseract-OCR了，所以自己親身試用一下，分享到博客讓有同樣興趣的人少走彎路。

文中所用到的身份證圖片資源是百度找的，如有侵權可聯系我刪除。

一、准備工作

1、下載Tesseract-OCR引擎，注意要3.0以上才支持中文哦，按照提示安裝就行。

2、下載chi_sim.traindata字庫。要有這個才能識別中文。下好后，放到Tesseract-OCR項目的tessdata文件夾里面。

3、下載jTessBoxEditor，這個是用來訓練字庫的。

以上的幾個在百度都能找到下載，就不詳細講了。

二、識別

1、進入cmd，進入到要識別的圖片的路徑下。

2、輸入命令

tesseract 圖片名稱 生成的結果文件的名稱 字庫

例如我的圖片識別就是：

tesseract test.jpg result -l chi_sim

識別完后會生成result.txt文件

當然啦效果不太理想。所以我們要訓練自己的字庫。

三、訓練

1、將圖片轉換成tif格式，用於后面生成box文件。可以通過畫圖，然后另存為tif即可。

更改圖片名字，這個是有要求的=。=

tif文面命名格式[lang].[fontname].exp[num].tif
lang是語言 fontname是字體
比如我們要訓練自定義字庫 mjorcen字體名normal
那么我們把圖片文件重命名 mjorcen.normal.exp0.jpg在轉tif。

2、生成box文件。

tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 -l chi_sim batch.nochop makebox

box文件和對應的tif一定要在相同的目錄下，不然后面打不開。

3、打開jTessBoxEditor矯正錯誤並訓練

打開train.bat

找到tif圖，打開，並校正。

4、訓練。

只要在命令行輸入命令即可。

tesseract  mjorcen.normal.exp0.jpg mjorcen.normal.exp0  nobatch box.train

unicharset_extractor mjorcen.normal.exp0.box

在這我明明已經矯正好了，但是還是有1個字符不能識別出來，報的錯跟實際上完全沒有相關性，不知道是不是bug，到后面的結果就是“園”字沒有識別出來。

先不管，畢竟只有一個樣本。

新建一個font_properties文件

里面內容寫入 normal 0 0 0 0 0 表示默認普通字體

繼續敲命令

shapeclustering -F font_properties -U unicharset mjorcen.normal.exp0.tr



mftraining -F font_properties -U unicharset -O unicharset mjorcen.normal.exp0.tr



cntraining mjorcen.normal.exp0.tr

最后會生成五個文件，把目錄下的unicharset、inttemp、pffmtable、shapetable、normproto這五個文件前面都加上normal.

如圖：

命令行輸入，合並五個文件：

combine_tessdata normal.

得到訓練好的字庫。

四、測試

1、把 normal.traineddata 復制到Tesseract-OCR 安裝目錄下的tessdata文件夾中

2、識別命令：

tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 -l normal

3、效果

對比：

總結：肯定要自己訓練過后的字庫識別效果好，接下來要把整個項目弄進android，還要研究怎么將多個字庫合並成一個字庫，因為我不可能一次訓練完所有的圖片文字的。到時候有什么成果了再分享博文。希望大家可以點贊！謝謝。

更新：沒有錯誤的話命令行的提示應該是這樣的

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 深入學習Tesseract-ocr識別中文並訓練字庫的方法 Tesseract5.0訓練字庫，提高OCR特殊場景識別率（一） Tesseract4.0 5.0訓練字庫 OCR 提高識別率必備(超詳情) Tesseract-OCR-v5.0中文識別,訓練自定義字庫,提高圖片的識別效果 Tesseract-OCR的簡單使用與訓練 tesseract-ocr Tesseract-OCR 5.0LSTM訓練流程 CENTOS 下編譯安裝 tesseract-ocr 3.0.4 識別文字【c#】Tesseract-ocr 3.0.2 版本使用實例【c#】Tesseract-ocr 3.0.2 版本使用實例