1 from PIL import Image 2 import pytesseract 3 4 text = pytesseract.image_to_string(Image.open(r'E:\guo\2432.jpg'),lang='chi_sim') 5 print(text)
我的python為3.7
1.需要安裝二個模塊,
PIL 直接使用 pip install PIL 會報錯 使用 pip install Pillow 即可安裝PIL
第二個直接 pip install pytesseract
2安裝好了模塊還需要下載 tesseract-ocr
下載網址:https://github.com/UB-Mannheim/tesseract/wiki
選擇自己的版本下載,下載之后直接安裝即可。注意要記住安裝的位置,等下需要用到
修改pytesseract.py 文件里面的指向路徑
打開方式可以在pycharm 輸入import pytesseract.pytesseract 然后按住ctrl鍵鼠標對着pytesseract右鍵點擊進去
1 from io import BytesIO 2 pandas_installed = find_loader('pandas') is not None 3 if pandas_installed: 4 import pandas as pd 5 6 # CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY 7 tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' 8 RGB_MODE = 'RGB'
其中tesseract_cmd是我已經修改了的地址,tesseract.exe在剛剛安裝位置里面,將這里設置好了運行就不會報錯
pytesseract有很多語言庫,默認的有英文,如果需要中文要去下載對應的語言包:
網址:https://github.com/tesseract-ocr/tessdata
其中的chi_sim.traineddata為簡體中文的語言包,將語言包放置到安裝路徑的tessdata目錄下即可。
如果需要使用語言包使用lang=來指定對應的語言包。默認是英文的。
chi_sim.traineddata的識別率不高,如果需要針對性的文字可以使用訓練模型生成適合自己的語言包