主要是實現圖片內容的離線識別,python 提供了一個庫完成此功能。
一. 安裝 tesseract-ocr 包
sudo apt-get install tesseract-ocr
二. 安裝 PIL PIL(python imaging library)是python中的圖像處理庫
sudo apt-get install python-imaging
三. 安裝 pytesseract
pip install pytesseract
四.代碼測試
# -*- coding: UTF-8 -*-
from PIL import Image
import pytesseract
# 識別中文
text = pytesseract.image_to_string(Image.open('chinese.png'),lang='chi_sim')
print text
# 識別英文
text = pytesseract.image_to_string(Image.open('english.png'))
print text
五.要想識別的中文需要添加中文字庫
需要在ubuntu 系統中 找到 tessdata 文件夾把中文字庫放進去
也可以在線安裝中文字庫
sudo apt-get install tesseract-ocr-chi-sim
六.此模塊還支持 命令行識別
使用命令: 識別英文: tesseract e.png 1 #1 是存儲獲取內容的文件,會在本地生成一個1文件 識別中文 tesseract --help # 查看幫助 tesseract --list -langs # 查看是否安裝了中文庫chi_sim tesseract -l chi_sim c.png 1 # 1也是結果的文件把識別的結果存到此文件中
還可以離線安裝源碼編譯安裝 參考的教程
https://www.cnblogs.com/yanhai307/p/10791490.html
