Tesseract訓練方法指導
一、首先,需要將圖片轉換成TIF格式的,所用到的工具為VietOCR.NET,操作方法為如下幾個步驟
- 打開VietOCR.NET軟件,選中菜單欄------>Tools ------> Merge TIFF,將所需要的圖片全部選上,然后再選擇文件夾保存,命名為你需要的名字,例如TEST.tif
如下圖片是自己畫的圖片
操作圖如下:
圖1
圖2
圖3
圖4
圖5
二、此時,我們需要另外兩個軟件,才可以做進一步的訓練,一個是Tesseract3.0.exe,一個是jTessBoxEditorFX(運用此軟件需要先安裝Jre(JAVA開發運行環境)),兩個軟件下載安裝完成之后,我們就可以用兩個軟件來進行訓練了。
1.將之前合並的TEST.tif圖片放到tesseract的安裝目錄下,和tesseract.exe在同等目錄下,然后輸入如下指令,獲得box文件,此文件一定要和tif圖片在同一個文件目錄下
tesseract.exe C:\Program Files (x86)\Tesseract-OCR \TEST.tif C:\Program Files (x86)\Tesseract-OCR \TEST batch.nochop makebox
2.打開jTessBoxEditorFX.jar文件,選擇中間工具欄三個選項中的Box Editor選項,打開相應的tif圖片,會得到如圖所示效果,將識別錯誤的通過選擇左邊后在右邊Character內輸入正確的內容,點擊旁邊的齒輪狀按鈕進行保存,等所有內容校驗完畢之后,一定要點擊Save保存。注意圈出來的位置,通過左右鍵翻頁,將所有內容全部校正。
3.當BOX已經校驗完畢之后,選擇中間工具欄的左邊選項“Trianer”選項,同時,將兩個路徑內容選擇一下,第一個路徑為tesseract.exe的路徑,第二個路徑為box的路徑;語言里面寫入需要保存的名稱,RTL后面的枚舉框中選擇Train with Existing Box,隨后選擇Run運行,運行完成之后,點擊Validate檢查訓練后的結果。訓練完成后,我們可以在tessdata文件夾下找到TEST.traineddata文件,此文件就是訓練后的模板文件。
例如,選擇之前的第一張圖片,就會顯示下方第三張圖的結果。
4.運行如下指令,也可以識別圖片中的內容
"C:\Program Files (x86)\Tesseract-OCR\ Tesseract.exe " "C:\Program Files (x86)\Tesseract-OCR\TEST.tif" "C:\Program Files (x86)\Tesseract-OCR\ TEST" -l TEST
格式說明:第一個為Tesseract的路徑,第二個為需要識別的圖像的路徑,第三個是輸出的文檔路徑(其中TEST就是文檔),最后的-l TEST是之前我們生成的TEST.traineddata模板文件