ocr模型訓練
pillow
是Python Image Library的3.0版本.
用於在Python處理各種圖片操作.
ocr模型訓練
-
linux下軟件:
tesseract-ocr:
sudo apt-get install tesseract-ocr
-
java運行環境(deepin自帶1.8)
-
jTessBoxEditor軟件:(該軟件需要java環境)
https://nchc.dl.sourceforge.net/project/vietocr/jTessBoxEditor/jTessBoxEditor-2.2.1.zip
使用次序:
- 訓練模型需要大量圖片.
- 使用jTessBoxEditor, 將所有需要訓練的圖片打包為tif格式的包.
- 然后使用 tesseract 將tif包,轉變為box.
tif文件名一般使用格式為.[語言].[字體].exp[數量]
例如: english.arial.exp99
tesseract 文件名.tif 文件名 -psm 7 batch.nochop makebox
tesseract zwp.test.exp0.tif zwp.test.exp0 -l chi_sim -psm 7 batch.nochop makebox - 轉化為box之后, 就可以使用jTessBoxEditor進行訓練了.
在訓練的過程當中, 如果是沒有經過處理的驗證碼圖片因為受噪點影響, 識別率特別低,應該先對圖片進行降噪處理. 之后再進行訓練.