Python3.7 tesseract-ocr 验证码识别配置以及常见错误


当前为Windows环境

1.首先安装Tesseract-OCR,链接:https://pan.baidu.com/s/12zazgAYWsNnxn8AxPjGfaw 提取码: esif 

  下载后默认安装就好,在安装过程中存在选项安装的情况,此时为选择语言,可略过

2.Tesseract-OCR安装完毕后,设置环境变量

  设置tesseract.exe的环境变量

  新建TESSDATA_PREFIX环境变量,值为C:\Program Files (x86)\Tesseract-OCR\tessdata,如图

3.验证Tesseract-OCR

  3.1 进入cmd 输入下面的命令查看版本,正常运行则安装成功:

    tesseract --version
  

    

  3.2 识别图片

    tesseract 图片路径 输出文件

    

      识别成功!!

4.进入cmd安装python依赖

  4.1 安装依赖

    

pip install pytesseract
pip install pillow

  4.2 编写代码

    识别下面的验证码

    代码如下:

import pytesseract
from PIL import Image

image = Image.open("F:/imooc2.png")
text = pytesseract.image_to_string(image)
print(text)

结果为6067,识别成功

5.此时特别容易出现错误

解决方案1:仔细查看环境变量是否正确

解决方案2:在代码中添加相关变量参数

#coding=utf-8
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)//Tesseract-OCR//tesseract.exe'
tessdata_dir_config = '--tessdata-dir "C://Program Files (x86)//Tesseract-OCR//tessdata"'
image = Image.open("F:/imooc2.png")
text = pytesseract.image_to_string(image, lang ='eng', config=tessdata_dir_config)
print(text)

  

 

 

 解决方案出处:https://www.cnblogs.com/chenshengkai/p/11318387.html

 

 

 

 

 

 

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM