python之圖片識別文字


本人的tesseract本來是3.0.2的,可以正常識別英文,但是添加簡體中文識別庫以后,一運行就報錯。

找了很多錯誤答案,正解就是這個了。

參考自本篇博客

果然是版本過低,沒什么需要注意的。

只是設置環境變量:

TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata

這個變量要設置到識別庫的目錄才行,好多博客都是設置到安裝目錄就完事兒了,那樣也是跑不起來了。

代碼:

#!/usr/bin/python
# -*- coding:utf-8 -*-

import pytesseract
from PIL import Image
# 讀取圖片
im = Image.open('2.png')
# 識別文字
string = pytesseract.image_to_string(im,lang='chi_sim')
print(string)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM