一、最近在學習python爬蟲的時候需要用到tesseract,但書上的給的教程對我並不適用,坑了好久天,才終於成功。
二、方法:
1、由於我看的是靜謐博主的那本書。他給的教程在python3安裝有問題。
2、步驟:
(1)首先安裝tesseract按照默認安裝,可以不用下載所有的語言。
(2)pip install pytesseract pillow.(靜謐博主教程可能用的python2,對於Python3包名改了)
下面是最大的坑。。。
(1)顯示tesseract.exe不存在,我在網上看說要將tesseract.exe的文件路徑添加到環境變量中。最好將用戶和系統環境變量都加上,然后打開site-pakges下的pytesseract文件下的tesseract.py文件下,將
tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'
改為上面格式。如果是沒有按照默認安裝,需要改為你自己的安裝路徑。
(2)pytesseract.pytesseract.TesseractError: (1,’Error opening data file /usr/local/share/tessdata/eng.traineddata’) 出現這個錯誤。
報錯會提示將TESSDATA_PREFIX= C:/Program Files (x86)/Tesseract-OCR添加到環境變量中,最好是將變量在用戶和系統都添加,不知道為什么添加一個還是會報錯。
3、測試:
1 import pytesseract 2 from PIL import Image 3 image = Image.open('F://python/image.png') 4 code = pytesseract.image_to_string(image) 5 print (code)
完工!!!(希望能幫到你)