关于用tesseract和tesserocr识别图片的一个问题

本文转载自查看原文 2019-04-07 21:12 1380 tesseract/ tesserocr

对于像我这样初学python网络爬虫的freshman来说，软件的准备和环境的配置能让我们崩溃。其中用刚安装好的tesseract和tesserocr库测试识别验证码就是其中一例。

这里我要测试的验证码是image.png，保存在C:\Users\LENOVO\Desktop。

1.对于tesseract,我按照书上来输入一下命令，然后产生错误。

觉得不可思议，我完全按照书上来的！

过了一天回头看才发现是那个‘-1’出了问题，原本应该是‘-l’，即language的简称。

改了之后以为能成功了，结果一阵无语，又出现了新错误。

后来捣鼓半天才意识到：虽然我已经把Tesseract-OCR目录添加到path环境变量，能在系统任意位置打开tesseract.exe，但打开图片需要正确的路径，于是我做了修改。成功了。

这是结果：

2.对于tesserocr库，当我直接按照书上敲入命令时：

>>> import tesserocr
>>> from PIL import Image
>>> image = Image.open('image.png')

>>> print(tesserocr.image_to_text(image))

到第三行就会出错

说是找不到文件。同样，跟上面一样，我们需要找到准确地址。下面有两种解决办法：

a.第三行命令填上完整读取地址

然后运行成功。

b.我已经把python安装地址添到path环境变量，可以直接在运行打开，但此时是在安装地址打开，直接读取验证码肯定会失败，所以我改在验证码位置打开python3：

然后成功！

所以，像这种东西，不仅需要细心，还要动脑。

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Tesseract OCR 图片文字识别基于Tesseract实现图片文字识别 Tesseract.js 一个几乎能识别出图片中所有语言的JS库 Tesseract识别图片提取文字&字库训练 tesseract图片识别库的简单操作 Tesseract-OCR-03-图片文字识别图片文字OCR识别-tesseract-ocr java 基于Tesseract实现图片文字识别 python 使用tesseract进行图片识别开源图片文字识别引擎——Tesseract OCR