1.下載
tesseract下載地址:https://digi.bib.uni-mannheim.de/tesseract/
其中文件名中帶有dev的為開發版本,不帶dev的為穩定版本,可以選擇下載不帶dev的版本。
2.雙擊安裝
一路next 到 如下界面
選擇需要的語言,選中后在安裝過程會下載勾選的語言,可能需要翻牆,下載不下來只能單獨下在
3.安裝完成后,pip需要的python庫pytesseract
pip install pytesseract
4.配置環境變量,將Tesseract-OCR的安裝路徑加到環境變量中
5.配置TESSDATA_PREFIX環境,將Tesseract-OCR安裝路徑的tessdata加入到環境中,不然有可能會報錯
6.如果你在安裝時沒能成功安裝勾選的語言包,可從如下地址下載
https://github.com/tesseract-ocr/tessdata
中文簡體,中文繁體
7.將語言包放到tessdata文件夾下即可
8.修改pytesseract.py
tesseract_cmd = '本地的安裝路徑'
9.重啟一下
10.測試
from PIL import Image import pytesseract import cv2 img = cv2.imread("wz.jpg", cv2.IMREAD_UNCHANGED) text = pytesseract.image_to_string((Image.open("wz.jpg")), lang='chi_sim') print(text) cv2.imshow("img", img) cv2.waitKey(-1)
效果: