Tesseract 對驗證碼的識別原理和實現步驟

本文轉載自查看原文 2013-10-12 12:14 3395 C#

學習圖片庫--->處理圖片（初步處理）--->校正.學習圖片

1. 采集圖片庫（一般每個出現的字符出現20次左右識別效果比較好），根據圖片特點進行初步處理（二值化/灰度化/濾波/降噪等處理），並保存為.tif格式（x.tif)；

2. 使用JTessBoxEditor ,將得到的.tif圖片合並為一張圖片（Tool—>MergeTiff）；

3. 下載安裝tesseract-ocr-setup-3.01-1.exe；

4. 安裝后，運行命令行到.tif格式（x.tif)文件夾中，輸入tesseract.exe x.tif x batch.nochop makebox;(PS:保存為同名同文件夾下）

5. 使用JTessBoxEditor打開x.tif文件進行逐個校正；（PS:每次校正后都得保存）

6.校正后，命令行執行：

tesseract.exe x.tif x nobatch box.train;

unicharset_extractor.exe x.box;

7. 在目錄下建立名為“font_properties”的文件，並輸入內容：x 1 0 0 1 0；

8.命令行執行：

cntraining.exe x.tr;

mftraining.exe –F font_properties –U unicharset x.tr;

9. 將目錄下生成的文件其中幾個unicharset/inttemp/normproto/pffmtable文件加上訓練名前綴“x.”;

10.命令行執行：

combine_tessdata x. 生成最終的校驗學習數據x.traineddata文件；

生成最終的文件示例如下：

11.將x.traineddata拷貝到tesseract-ocr-setup-3.01-1.exe安裝好的tesseract-ocr目錄下的tessdata下，找一張

經過初步處理的圖片，運行命令行執行：tesseract.exe xx.jpg out –l lm；在同級目錄下就會生成一個out.txt文件，里面的內容就是識別后的字符串。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 nodeJS實現識別驗證碼（tesseract-ocr+GraphicsMagick）使用Tesseract （OCR）實現簡單的驗證碼識別（C#）+窗體淡入淡出效果使用Tesseract （OCR）實現簡單的驗證碼識別（C#）+窗體淡入淡出效果 Tesseract-OCR識別圖片驗證碼 python識別驗證碼tesseract介紹與使用驗證碼識別 Tesseract的簡單使用和總結 C#識別驗證碼技術-Tesseract 驗證碼實現原理 C# 使用Tesseract-OCR-v5.0，實現驗證碼，中文，身份證識別 centos7下安裝tesseract-ocr進行驗證碼識別,centos7 安裝tesseract ,yum安裝tesseract