關於Tesseract的簡單訓練方法


Tesseract訓練方法指導

一、首先,需要將圖片轉換成TIF格式的,所用到的工具為VietOCR.NET,操作方法為如下幾個步驟

  1. 打開VietOCR.NET軟件,選中菜單欄------>Tools ------> Merge TIFF,將所需要的圖片全部選上,然后再選擇文件夾保存,命名為你需要的名字,例如TEST.tif

 

如下圖片是自己畫的圖片

 

  

操作圖如下:

 

圖1

 

圖2

 

圖3

 

圖4

 

圖5

二、此時,我們需要另外兩個軟件,才可以做進一步的訓練,一個是Tesseract3.0.exe,一個是jTessBoxEditorFX(運用此軟件需要先安裝Jre(JAVA開發運行環境)),兩個軟件下載安裝完成之后,我們就可以用兩個軟件來進行訓練了。

1.將之前合並的TEST.tif圖片放到tesseract的安裝目錄下,和tesseract.exe在同等目錄下,然后輸入如下指令,獲得box文件,此文件一定要和tif圖片在同一個文件目錄下

tesseract.exe C:\Program Files (x86)\Tesseract-OCR \TEST.tif C:\Program Files (x86)\Tesseract-OCR \TEST batch.nochop makebox

2.打開jTessBoxEditorFX.jar文件,選擇中間工具欄三個選項中的Box Editor選項,打開相應的tif圖片,會得到如圖所示效果,將識別錯誤的通過選擇左邊后在右邊Character內輸入正確的內容,點擊旁邊的齒輪狀按鈕進行保存,等所有內容校驗完畢之后,一定要點擊Save保存。注意圈出來的位置,通過左右鍵翻頁,將所有內容全部校正。

 

 

 

3.當BOX已經校驗完畢之后,選擇中間工具欄的左邊選項“Trianer”選項,同時,將兩個路徑內容選擇一下,第一個路徑為tesseract.exe的路徑,第二個路徑為box的路徑;語言里面寫入需要保存的名稱,RTL后面的枚舉框中選擇Train with Existing Box,隨后選擇Run運行,運行完成之后,點擊Validate檢查訓練后的結果。訓練完成后,我們可以在tessdata文件夾下找到TEST.traineddata文件,此文件就是訓練后的模板文件。

例如,選擇之前的第一張圖片,就會顯示下方第三張圖的結果。

 

 

 

4.運行如下指令,也可以識別圖片中的內容

"C:\Program Files (x86)\Tesseract-OCR\ Tesseract.exe " "C:\Program Files (x86)\Tesseract-OCR\TEST.tif" "C:\Program Files (x86)\Tesseract-OCR\ TEST" -l TEST

格式說明:第一個為Tesseract的路徑,第二個為需要識別的圖像的路徑,第三個是輸出的文檔路徑(其中TEST就是文檔),最后的-l TEST是之前我們生成的TEST.traineddata模板文件


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM