tesseract-ocr的安裝及使用pycharm來運行


1、可以在:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

下載一個exe文件,然后直接按照提示安裝就行了,安裝過程中,會讓你安裝額外的語言包,可根據選擇下載。

 

 

2、安裝后配置一下環境變量

 

 

點擊新建,把這個目錄,復制進去保存就行了

 

增加一個TESSDATA_PREFIX變量名,變量值還是我的安裝路徑E:\pycharm\tesseract\Tesseract-OCR\tessdata這是將語言字庫文件夾添加到變量中;

 

 

 

 

 

3、檢查

打開命令終端,輸入:tesseract -v,可以看到版本信息

可以看到就說明可以了

 

4、使用pycharm來認圖,代碼

首先你要安裝pytesseract,安裝過pytesseract后PIL一般也就隨之安裝了(pycharm安裝庫很簡單,不會可以百度一下^_^)

 

import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r'E:\pycharm\tesseract\Tesseract-OCR\tesseract.exe'
image = Image.open('b.png')
# text = pytesseract.image_to_string(image,lang='chi_sim') # 這樣就能識別中文了
text = pytesseract.image_to_string(image) 
print(text)

 

 

 

 

 

 

b.png:

 

 

 

 

 

 

 

提示:

你如果是用截圖工具截取了一個登錄時候的認證圖,可能會讓tesseract識別不了,因為好像是分別率不夠

可以百度搜索個圖片用來試試

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM