tesseract-ocr 介绍
ocr含义是Optical Character Recognition,含义即视觉字符识别。而tesseract是该领域特别优秀开源的作品。
官方的tesseract定义:
OCR engine - libtesseract and a command line program - tesseract.
即tesseract包括一个视觉字符识别引擎libtesseract和命令行程序tesseract。
当前最新稳定版本是4.x.x基于LSTM,源码可从找到tesseract的GitHub: tesseract.找到。
关于tesseract的工作模式如上图所示。假设现在有一个图片输入,整个执行流程为:
2 安装tesseract
第一步下载
下载合适的exe安装文件:
网址:https://digi.bib.uni-mannheim.de/tesseract/,下载完成后后装即可
可以安装最新版本 5.0 的
第二步环境变量配置
在path变量中加入tesseract-ocr的安装路径
第三步安装成功检测
使用tesseract指令,显示如下:
3、使用命令行
1.tesseract + 图片路径 + 保存结果名 + -l 语言集
示列: tesseract 1606150081.png 1606150081 -l chi_sim
2.tesseract + 图片路径 +stdout -l +语言集
示列: tesseract D:\company\ruigushop\spring-2s\test.png stdout -l chi_sim
有了上述之后就可以完成web图片识别程序的开发啦,废话不多说,直接上代码。
4、现在只能识别英语 如果要中文需要引入
https://gitee.com/acgnhiki/tessdata_best
下载后将所有的文件复制到安装路径的 tessdata 中
也不要删除掉原来tessdata中的数据
5、python中的使用
import os cmd = "tesseract "+'3.png'+" " + '2' + " -l chi_sim" os.system(cmd)
引用:
https://mp.weixin.qq.com/s/gU_-8jTxw-Rhoi5oarStOg
https://www.zhihu.com/tardis/sogou/art/131424804