python 使用tesseract進行圖片識別


1 from PIL import Image
2 import pytesseract
3 
4 text = pytesseract.image_to_string(Image.open(r'E:\guo\2432.jpg'),lang='chi_sim')
5 print(text)

我的python為3.7

1.需要安裝二個模塊,

PIL 直接使用 pip install PIL 會報錯 使用 pip install Pillow 即可安裝PIL

第二個直接 pip install pytesseract

2安裝好了模塊還需要下載 tesseract-ocr

下載網址:https://github.com/UB-Mannheim/tesseract/wiki

選擇自己的版本下載,下載之后直接安裝即可。注意要記住安裝的位置,等下需要用到

修改pytesseract.py 文件里面的指向路徑

打開方式可以在pycharm 輸入import pytesseract.pytesseract 然后按住ctrl鍵鼠標對着pytesseract右鍵點擊進去

 

1 from io import BytesIO
2 pandas_installed = find_loader('pandas') is not None
3 if pandas_installed:
4     import pandas as pd
5 
6 # CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
7 tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
8 RGB_MODE = 'RGB'

 

其中tesseract_cmd是我已經修改了的地址,tesseract.exe在剛剛安裝位置里面,將這里設置好了運行就不會報錯

 

 

 

pytesseract有很多語言庫,默認的有英文,如果需要中文要去下載對應的語言包:
網址:https://github.com/tesseract-ocr/tessdata
其中的chi_sim.traineddata為簡體中文的語言包,將語言包放置到安裝路徑的tessdata目錄下即可。
如果需要使用語言包使用lang=來指定對應的語言包。默認是英文的。

chi_sim.traineddata的識別率不高,如果需要針對性的文字可以使用訓練模型生成適合自己的語言包

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM