關於Tesseract的簡單訓練方法

本文轉載自查看原文 2017-09-25 12:12 3492 Tesseract OCR

Tesseract訓練方法指導

一、首先，需要將圖片轉換成TIF格式的，所用到的工具為VietOCR.NET，操作方法為如下幾個步驟

打開VietOCR.NET軟件，選中菜單欄------>Tools ------> Merge TIFF，將所需要的圖片全部選上，然后再選擇文件夾保存，命名為你需要的名字，例如TEST.tif

如下圖片是自己畫的圖片

操作圖如下：

圖1

圖2

圖3

圖4

圖5

二、此時，我們需要另外兩個軟件，才可以做進一步的訓練，一個是Tesseract3.0.exe，一個是jTessBoxEditorFX（運用此軟件需要先安裝Jre（JAVA開發運行環境）），兩個軟件下載安裝完成之后，我們就可以用兩個軟件來進行訓練了。

1.將之前合並的TEST.tif圖片放到tesseract的安裝目錄下，和tesseract.exe在同等目錄下，然后輸入如下指令，獲得box文件，此文件一定要和tif圖片在同一個文件目錄下

tesseract.exe C:\Program Files (x86)\Tesseract-OCR \TEST.tif C:\Program Files (x86)\Tesseract-OCR \TEST batch.nochop makebox

2.打開jTessBoxEditorFX.jar文件，選擇中間工具欄三個選項中的Box Editor選項，打開相應的tif圖片，會得到如圖所示效果，將識別錯誤的通過選擇左邊后在右邊Character內輸入正確的內容，點擊旁邊的齒輪狀按鈕進行保存，等所有內容校驗完畢之后，一定要點擊Save保存。注意圈出來的位置，通過左右鍵翻頁，將所有內容全部校正。

3.當BOX已經校驗完畢之后，選擇中間工具欄的左邊選項“Trianer”選項，同時，將兩個路徑內容選擇一下，第一個路徑為tesseract.exe的路徑，第二個路徑為box的路徑；語言里面寫入需要保存的名稱，RTL后面的枚舉框中選擇Train with Existing Box，隨后選擇Run運行，運行完成之后，點擊Validate檢查訓練后的結果。訓練完成后，我們可以在tessdata文件夾下找到TEST.traineddata文件，此文件就是訓練后的模板文件。

例如，選擇之前的第一張圖片，就會顯示下方第三張圖的結果。

4.運行如下指令，也可以識別圖片中的內容

"C:\Program Files (x86)\Tesseract-OCR\ Tesseract.exe " "C:\Program Files (x86)\Tesseract-OCR\TEST.tif" "C:\Program Files (x86)\Tesseract-OCR\ TEST" -l TEST

格式說明：第一個為Tesseract的路徑，第二個為需要識別的圖像的路徑，第三個是輸出的文檔路徑（其中TEST就是文檔），最后的-l TEST是之前我們生成的TEST.traineddata模板文件

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Tesseract 3 語言數據的訓練方法 word2vec高效訓練方法高效的前端編程入門訓練方法 lecture8-RNN的訓練方法之二三 Haartraining 訓練方法(這個樣例真有用,能行) 探索圖神經網絡的網絡架構和訓練方法一種程序設計競賽的訓練方法（譯） Tesseract-OCR的簡單使用與訓練文本分類的一種對抗訓練方法 Tensorflow 大規模數據集訓練方法