OCR模型訓練


ocr模型訓練

pillow

是Python Image Library的3.0版本. 
用於在Python處理各種圖片操作. 

ocr模型訓練

  • linux下軟件:
    tesseract-ocr:
    sudo apt-get install tesseract-ocr

  • java運行環境(deepin自帶1.8)

  • jTessBoxEditor軟件:(該軟件需要java環境)
    https://nchc.dl.sourceforge.net/project/vietocr/jTessBoxEditor/jTessBoxEditor-2.2.1.zip


使用次序:

  • 訓練模型需要大量圖片.
  • 使用jTessBoxEditor, 將所有需要訓練的圖片打包為tif格式的包.
  • 然后使用 tesseract 將tif包,轉變為box.
    tif文件名一般使用格式為.[語言].[字體].exp[數量]
    例如: english.arial.exp99
    tesseract 文件名.tif 文件名 -psm 7 batch.nochop makebox
    tesseract zwp.test.exp0.tif zwp.test.exp0 -l chi_sim -psm 7 batch.nochop makebox
  • 轉化為box之后, 就可以使用jTessBoxEditor進行訓練了.
    在訓練的過程當中, 如果是沒有經過處理的驗證碼圖片因為受噪點影響, 識別率特別低,應該先對圖片進行降噪處理. 之后再進行訓練.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM