tesseract-ocr 介绍

ocr含义是Optical Character Recognition，含义即视觉字符识别。而tesseract是该领域特别优秀开源的作品。

官方的tesseract定义：

OCR engine - libtesseract and a command line program - tesseract.

2 安装tesseract

下载合适的exe安装文件：

可以安装最新版本 5.0 的

在path变量中加入tesseract-ocr的安装路径

使用tesseract指令，显示如下：

示列: tesseract 1606150081.png 1606150081 -l chi_sim

示列: tesseract D:\company\ruigushop\spring-2s\test.png stdout -l chi_sim

有了上述之后就可以完成web图片识别程序的开发啦，废话不多说，直接上代码。

https://gitee.com/acgnhiki/tessdata_best

下载后将所有的文件复制到安装路径的 tessdata 中

也不要删除掉原来tessdata中的数据

import os
cmd = "tesseract "+'3.png'+" " + '2' + " -l chi_sim"
os.system(cmd)

https://mp.weixin.qq.com/s/gU_-8jTxw-Rhoi5oarStOg

https://www.zhihu.com/tardis/sogou/art/131424804

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Python从图片提取文字 python从图片中提取文字 python如何提取pdf文件图片中的文字？ [python]提取PPT中的文字（包括图片中的文字） python 提取pdf文字防止识别图片中文字；防止图片文字提取；反抗图片文字提取 python如何提取word内的图片 python如何提取word内的图片 python如何提取word内的图片怎样用便签提取图片文字？