本人的tesseract本來是3.0.2的,可以正常識別英文,但是添加簡體中文識別庫以后,一運行就報錯。
找了很多錯誤答案,正解就是這個了。
果然是版本過低,沒什么需要注意的。
只是設置環境變量:
TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata
這個變量要設置到識別庫的目錄才行,好多博客都是設置到安裝目錄就完事兒了,那樣也是跑不起來了。
代碼:
#!/usr/bin/python
# -*- coding:utf-8 -*-
import pytesseract
from PIL import Image
# 讀取圖片
im = Image.open('2.png')
# 識別文字
string = pytesseract.image_to_string(im,lang='chi_sim')
print(string)