Tesseract OCR 圖片文字識別

本文轉載自查看原文 2021-10-24 10:52 290 python

Tesseract 介紹

Tesseract是一個開源的文本識別引擎，支持多種語言。4.0.0版本增加了LSTM神經網絡。Tesseract最初是由惠普公司研發，2005年開源。

Tesseract安裝

下載Tesseract的安裝包，地址

安裝過程：

選擇常用的數學公式包，其他的語言包可以先不勾選，后續需要時再下載。如果勾選了安裝過程可能極慢甚至中斷。

設置環境變量

設置TESSDATA_PREFIX環境變量到tesseract的data目錄。

選擇語言包：

使用Tesseract進行文本識別時，需要下載相應的語言包，如本文需要對中文進行識別在data下載chi_sim.traineddata放到TESSDATA_PREFIX目錄下。

Tesseract中文識別

Tesseract沒有提供圖形界面，只能通過命令行或者編程語言來調用。

需要注意的是，在使用Tessearct對中文進行識別的時候需要指定使用的語言模型，否則會識別失敗出現一堆亂碼。

命令行調用Tesseract

tesseract 1.png result -l chi_sim   # -l 參數指定語言模型

python調用Tessearct

使用python調用Tessearct需要首先安裝兩個python lib

pip install pillow
pip install pytesseract

使用python調用Tessearct進行圖片中文識別

# coding = utf-8
from PIL import Image
import pytesseract
image = Image.open("1.png")
# 這里lang='chi_sim'參數很重要，意思是對中文進行識別，如果加這個參數默認應該是英文的，中文識別出來的是亂碼
text = pytesseract.image_to_string(image, lang='chi_sim')
print(text)

'''
類似於
919@400 ROK
1X
< Aah @ Fix
arta
ExT, 2%
Med Ea
BAAR ALFRE RIE tS
| Be Be
cai | = LRT +R
'''

Reference

Python:文本識別拋棄pytesser，直接使用Tesseract - Penguin (polarxiong.com)

tesseract官方文檔：Tesseract User Manual | tessdoc (tesseract-ocr.github.io)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 圖片文字OCR識別-tesseract-ocr Tesseract-OCR-03-圖片文字識別 python實現中文圖片文字識別--OCR about chinese text--tesseract Tesseract-ocr c#文字識別簡單入門 NET 2.0 OCR文字識別技術（Tesseract 引擎） Tesseract識別圖片提取文字&字庫訓練 java 基於Tesseract實現圖片文字識別 tesseract-ocr 識別中文掃描圖片 golang嘗試圖片識別OCR庫tesseract使用 Windows下訓練Tesseract實現識別圖片中的文字