Python 圖片文字識別

本文轉載自查看原文 2019-10-16 13:33 2658 06.Python

前言

最近一段時間比較忙，一直沒有更新文章了。最近這兩天，有一點空閑的時間，想到做一些東西。

一直對 Python 有一些愛好，也一直在寫一些，想着就來做一些圖像識別這一塊的。

今天就先做一個圖像文字識別的示例。

一、准備

做圖像文字識別，是需要一些文字識別的引擎，對於這些 ORC 可以自己查資料看看。

在這里用的 ORC 是 tesseract-ocr ，所以要准備一些安裝包。

Windows 下的 ORC 安裝包：

1、tesseract-ocr-w64-setup-v4.1.0.20190314.exe （官方沒有提供，從第三方下載exe）；

2、語言包，默認是支持英文的，所以對於中午識別要下載語言包：chi_tra.traineddata、chi_sim.traineddata；

這些下載地址在 GitHub 上面都有，這里也把地址貼出來：

https://digi.bib.uni-mannheim.de/tesseract/（安裝包）

https://github.com/tesseract-ocr/tessdata （語言包）

不過這些國外網站，在沒有翻牆下載太慢了。

下載完成后放到百度網盤：鏈接: https://pan.baidu.com/s/1phRCtsv3FKNORfOEvt9L1g 提取碼: 4mcf 復制這段內容后打開百度網盤手機App，操作更方便哦

下面就是安裝 Python 包了：

pytesseract 是 tesseract-ocr 的 API 包，安裝了引擎需要用這個包進行調用。

Python 3.x

pip install pytesseract
pip install pillow

Python 2.x

pip install pytesseract
pip install PIL

二、安裝配置環境

安裝完 ORC 引擎后，需要配置環境變量，並把語言包拷貝到安裝目錄下。

1、安裝完成后，添加環境變量

如我的安裝路徑：C:\Program Files\Tesseract-OCR 添加到 Path 中，在 cmd 中輸入 tesseract -v ，出現版本情況即安裝成功。

2、配置語言包

拷貝下載的語言包到：C:\Program Files\Tesseract-OCR\tessdata 路徑下

3、修改 pytesseract 源碼

在源碼中會配置 tesseract-ocr 的路徑，源碼位置：C:\Python\Python37\Lib\site-packages\pytesseract （根據自己安裝位置來）

修改 tesseract_cmd 為：tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe' （根據自己安裝位置）

到這來就完成了安裝與配置

三、示例

先上一段代碼

# -*- coding: utf-8 -*-
# author: ZHT
# 圖像識別初識

import pytesseract
from PIL import Image

image = Image.open('ImageIdentification/test.png')
code = pytesseract.image_to_string(image, lang="chi_sim+eng")
print(code)

代碼是成功了，也輸出了，但是識別率不行啊！！

漢字中沒有特殊字符的、不帶英文的、字體較規范的，識別還是挺好的。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python識別圖片上的文字並返回文字在圖片中的坐標使用Python進行OCR -- 識別圖片中的文字 python+百度實現批量識別圖片上的文字 Python2.7+pytesser圖片文字識別功能 python 文字識別之 pytesseract java 圖片文字識別 ocr Python調用百度OCR識別API實現文字圖片識別【圖片識別】java 圖片文字識別 ocr （轉） OpenCV+python文字識別 Python - PDF 識別文字 (pdfplumber)