一. Steps:
學習圖片庫--->處理圖片(初步處理)--->校正.學習圖片
二. Tesseract:
1. 采集圖片庫(一般每個出現的字符出現20次左右識別效果比較好),根據圖片特點進行初步處理(二值化/灰度化/濾波/降噪等處理),並保存為.tif格式(x.tif);
2. 使用JTessBoxEditor ,將得到的.tif圖片合並為一張圖片(Tool—>MergeTiff);
3. 下載安裝tesseract-ocr-setup-3.01-1.exe;
4. 安裝后,運行命令行到.tif格式(x.tif)文件夾中,輸入tesseract.exe x.tif x batch.nochop makebox;(PS:保存為 同名同文件夾下)
5. 使用JTessBoxEditor打開x.tif文件進行逐個校正;(PS:每次校正后都得保存)
6.校正后,命令行執行:
tesseract.exe x.tif x nobatch box.train;
unicharset_extractor.exe x.box;
7. 在目錄下建立名為“font_properties”的文件,並輸入內容:x 1 0 0 1 0;
8.命令行執行:
cntraining.exe x.tr;
mftraining.exe –F font_properties –U unicharset x.tr;
9. 將目錄下生成的文件其中幾個unicharset/inttemp/normproto/pffmtable文件加上訓練名前綴“x.”;
10.命令行執行:
combine_tessdata x. 生成最終的校驗學習數據x.traineddata文件;
生成最終的文件示例如下:
11.將x.traineddata拷貝到tesseract-ocr-setup-3.01-1.exe安裝好的tesseract-ocr目錄下的tessdata下,找一張
經過初步處理的圖片,運行命令行執行:tesseract.exe xx.jpg out –l lm;在同級目錄下就會生成一個out.txt文件,里面的內容就是識別后的字符串。