ubuntu 安装 pytesseract 模块进行图片内容识别

本文转载自查看原文 2020-01-23 09:50 876 ubuntu

主要是实现图片内容的离线识别，python 提供了一个库完成此功能。

一. 安装 tesseract-ocr 包

sudo apt-get install tesseract-ocr

二. 安装 PIL PIL(python imaging library)是python中的图像处理库

 sudo apt-get install python-imaging

三. 安装 pytesseract

pip install pytesseract

四.代码测试

# -*- coding: UTF-8 -*-
from PIL import Image
import pytesseract
# 识别中文
text = pytesseract.image_to_string(Image.open('chinese.png'),lang='chi_sim')
print text

# 识别英文
text = pytesseract.image_to_string(Image.open('english.png'))
print text

五.要想识别的中文需要添加中文字库

需要在ubuntu 系统中找到 tessdata 文件夹把中文字库放进去

也可以在线安装中文字库

sudo apt-get install tesseract-ocr-chi-sim

六.此模块还支持命令行识别

使用命令：
识别英文：
tesseract e.png 1   #1 是存储获取内容的文件，会在本地生成一个1文件
识别中文
tesseract --help  # 查看帮助
tesseract --list -langs  # 查看是否安装了中文库chi_sim
tesseract -l chi_sim c.png 1 # 1也是结果的文件把识别的结果存到此文件中

还可以离线安装源码编译安装参考的教程

https://www.cnblogs.com/yanhai307/p/10791490.html

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Python3使用 pytesseract 进行图片识别图片识别文字 pytesseract安装及使用 pytesseract提取识别图片中的文字 python识别验证码——PIL,pytesser,pytesseract的安装 pytesseract在识别只有一个数字的图片时识别不出来使用python+pytesseract实现图片中文字的识别使用python读取视频中的指定数字（二）：pytesseract 识别图片 Tesseract pytesseract的安装和使用 tess4j进行图片文字识别使用Python进行PDF图片识别OCR