OCR模型訓練

本文轉載自查看原文 2020-04-13 21:35 931 Other

ocr模型訓練

是Python Image Library的3.0版本. 
用於在Python處理各種圖片操作.

linux下軟件:
tesseract-ocr:
sudo apt-get install tesseract-ocr
java運行環境(deepin自帶1.8)
jTessBoxEditor軟件:(該軟件需要java環境)
https://nchc.dl.sourceforge.net/project/vietocr/jTessBoxEditor/jTessBoxEditor-2.2.1.zip

使用次序:

訓練模型需要大量圖片.
使用jTessBoxEditor, 將所有需要訓練的圖片打包為tif格式的包.
然后使用 tesseract 將tif包,轉變為box.
tif文件名一般使用格式為.[語言].[字體].exp[數量]
例如: english.arial.exp99
tesseract 文件名.tif 文件名 -psm 7 batch.nochop makebox
tesseract zwp.test.exp0.tif zwp.test.exp0 -l chi_sim -psm 7 batch.nochop makebox
轉化為box之后, 就可以使用jTessBoxEditor進行訓練了.
在訓練的過程當中, 如果是沒有經過處理的驗證碼圖片因為受噪點影響, 識別率特別低,應該先對圖片進行降噪處理. 之后再進行訓練.

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python使用tesseract-ocr完成驗證碼識別（模型訓練和使用部分） OCR2：tesseract字庫訓練 tesseract-OCR識別漢字及訓練 OCR訓練數據生成方法 Tesseract-OCR的簡單使用與訓練 Tesseract-OCR的簡單使用與訓練 Tesseract-OCR 訓練教程（二）合並新的訓練文件訓練模型和衡量模型的好壞 fcn模型訓練及測試如何用 GPU 訓練模型？