python 图片提取文字


tesseract-ocr 介绍

ocr含义是Optical Character Recognition,含义即视觉字符识别。而tesseract是该领域特别优秀开源的作品。

官方的tesseract定义:

OCR engine - libtesseract and a command line program - tesseract.

即tesseract包括一个视觉字符识别引擎libtesseract和命令行程序tesseract。

当前最新稳定版本是4.x.x基于LSTM,源码可从找到tesseract的GitHub: tesseract.找到。

 

 

 

关于tesseract的工作模式如上图所示。假设现在有一个图片输入,整个执行流程为:

  1. 输入(一张图片)
  2. 有用信息提取(比如一个图片上只有一个字,那其他留白的是无用,这个字上每个色素是有效的并且相关)
  3. 找出文字/线条
  4. 字符分类集
  5. 输入与分类集对比找出最接近的
  6. 输出识别结果

 2 安装tesseract

第一步下载

下载合适的exe安装文件:

网址:https://digi.bib.uni-mannheim.de/tesseract/,下载完成后后装即可

可以安装最新版本 5.0 的 

 

第二步环境变量配置

在path变量中加入tesseract-ocr的安装路径

 

 

 

第三步安装成功检测

使用tesseract指令,显示如下:

 

3、使用命令行

1.tesseract + 图片路径 + 保存结果名 + -l 语言集

示列: tesseract 1606150081.png 1606150081 -l chi_sim

2.tesseract + 图片路径 +stdout -l +语言集

示列: tesseract D:\company\ruigushop\spring-2s\test.png stdout -l chi_sim

有了上述之后就可以完成web图片识别程序的开发啦,废话不多说,直接上代码。

4、现在只能识别英语 如果要中文需要引入

https://gitee.com/acgnhiki/tessdata_best

下载后将所有的文件复制到安装路径的 tessdata 中

也不要删除掉原来tessdata中的数据

 

 

 

 

5、python中的使用

import os
cmd = "tesseract "+'3.png'+" " + '2' + " -l chi_sim"
os.system(cmd)

 

引用:

https://mp.weixin.qq.com/s/gU_-8jTxw-Rhoi5oarStOg

https://www.zhihu.com/tardis/sogou/art/131424804


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM