1、可以在:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe
下載一個exe文件,然后直接按照提示安裝就行了,安裝過程中,會讓你安裝額外的語言包,可根據選擇下載。
2、安裝后配置一下環境變量
點擊新建,把這個目錄,復制進去保存就行了
增加一個TESSDATA_PREFIX變量名,變量值還是我的安裝路徑E:\pycharm\tesseract\Tesseract-OCR\tessdata這是將語言字庫文件夾添加到變量中;
3、檢查
打開命令終端,輸入:tesseract -v,可以看到版本信息
可以看到就說明可以了
4、使用pycharm來認圖,代碼
首先你要安裝pytesseract,安裝過pytesseract后PIL一般也就隨之安裝了(pycharm安裝庫很簡單,不會可以百度一下^_^)
import pytesseract from PIL import Image pytesseract.pytesseract.tesseract_cmd = r'E:\pycharm\tesseract\Tesseract-OCR\tesseract.exe' image = Image.open('b.png')
# text = pytesseract.image_to_string(image,lang='chi_sim') # 這樣就能識別中文了
text = pytesseract.image_to_string(image)
print(text)
b.png:
提示:
你如果是用截圖工具截取了一個登錄時候的認證圖,可能會讓tesseract識別不了,因為好像是分別率不夠
可以百度搜索個圖片用來試試