Tesseract 對驗證碼的識別原理和實現步驟


一. Steps:

學習圖片庫--->處理圖片(初步處理)--->校正.學習圖片

二. Tesseract:

1. 采集圖片庫(一般每個出現的字符出現20次左右識別效果比較好),根據圖片特點進行初步處理(二值化/灰度化/濾波/降噪等處理),並保存為.tif格式(x.tif);

2. 使用JTessBoxEditor ,將得到的.tif圖片合並為一張圖片(Tool—>MergeTiff);

3. 下載安裝tesseract-ocr-setup-3.01-1.exe;

4. 安裝后,運行命令行到.tif格式(x.tif)文件夾中,輸入tesseract.exe x.tif x batch.nochop makebox;(PS:保存為 同名同文件夾下)

5. 使用JTessBoxEditor打開x.tif文件進行逐個校正;(PS:每次校正后都得保存)

6.校正后,命令行執行:

tesseract.exe x.tif x nobatch box.train; 

unicharset_extractor.exe x.box;

7. 在目錄下建立名為“font_properties”的文件,並輸入內容:x 1 0 0 1 0;

8.命令行執行:

cntraining.exe x.tr;

mftraining.exe –F font_properties –U unicharset x.tr;

9. 將目錄下生成的文件其中幾個unicharset/inttemp/normproto/pffmtable文件加上訓練名前綴“x.”;

10.命令行執行:

combine_tessdata x. 生成最終的校驗學習數據x.traineddata文件;

生成最終的文件示例如下:

test

11.將x.traineddata拷貝到tesseract-ocr-setup-3.01-1.exe安裝好的tesseract-ocr目錄下的tessdata下,找一張

經過初步處理的圖片,運行命令行執行:tesseract.exe xx.jpg out –l lm;在同級目錄下就會生成一個out.txt文件,里面的內容就是識別后的字符串。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM