tesseract下載地址:https://digi.bib.uni-mannheim.de/tesseract/
添加中文的識別庫:
https://github.com/tesseract-ocr/tessdata/find/master
這個網址中下載chi_sim.traineddata,下載后放到Tesseract-OCR\tessdata文件夾內。
設置環境變量:
安裝完成后在Windows
下把tesseract.exe
所在的路徑添加到PATH
環境變量中。
另外一個環境變量我自己電腦中是沒有添加,也可以正常運行程序。做個參考:
**********************************************************************************************************
在使用tesseract命令行進行測試時,報以下的錯誤
Error opening data file \Program Files (x86)\Tesseract-OCR\tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.
報錯是意思是缺少環境變量TESSDATA_PREFIX,導致無法加載任何語言,就不能初始化tesseract。
解決的方法也很簡單,在環境變量中,添加一個變量名為TESSDATA_PREFIX,變量值為teseractdata目錄地址。
**************************************************************************************************************************
在命令行中使用tesseract識別圖像:
如果想要在cmd
下能夠使用tesseract
命令,那么需要把tesseract.exe
所在的目錄放到PATH
環境變量中。然后使用命令:tesseract 圖片路徑 文件路徑
。
示例:
tesseract a.png a
那么就會識別出a.png
中的圖片,並且把文字寫入到a.txt
中。
如果識別中文的,需要添加個參數:
tesseract a.png a -l eng 默認的是eng,中文的就改成
chi_sim。
關於快速的在當前文件夾內打開cmd的方法,是按住shift鍵,然后右鍵,就可以有“在此處打開命令行窗口”的選項,並且直接定位到當前文件夾內。
在代碼中使用tesseract識別圖像:
pip install pytesseract安裝
使用代碼:
from PIL import Image import pytesseract text = pytesseract.image_to_string(Image.open('captcha.png') , lang='chi_sim') print(text)
從網頁中下載圖片的簡單代碼:
from urllib import request img_url = 'https://u.baidu.com/ucweb/?module=Reguser&controller=reg&action=image&appid=12&_=1551428462677' request.urlretrieve(img_url, 'captcha.png')