python 使用tesseract進行圖片識別

本文轉載自查看原文 2019-08-03 16:17 1825 python

1 from PIL import Image
2 import pytesseract
3 
4 text = pytesseract.image_to_string(Image.open(r'E:\guo\2432.jpg'),lang='chi_sim')
5 print(text)

我的python為3.7

1.需要安裝二個模塊，

PIL 直接使用 pip install PIL 會報錯使用 pip install Pillow 即可安裝PIL

第二個直接 pip install pytesseract

2安裝好了模塊還需要下載 tesseract-ocr

下載網址：https://github.com/UB-Mannheim/tesseract/wiki

選擇自己的版本下載，下載之后直接安裝即可。注意要記住安裝的位置，等下需要用到

修改pytesseract.py 文件里面的指向路徑

打開方式可以在pycharm 輸入import pytesseract.pytesseract 然后按住ctrl鍵鼠標對着pytesseract右鍵點擊進去

1 from io import BytesIO
2 pandas_installed = find_loader('pandas') is not None
3 if pandas_installed:
4     import pandas as pd
5 
6 # CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
7 tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
8 RGB_MODE = 'RGB'

其中tesseract_cmd是我已經修改了的地址，tesseract.exe在剛剛安裝位置里面，將這里設置好了運行就不會報錯

pytesseract有很多語言庫，默認的有英文，如果需要中文要去下載對應的語言包：
網址：https://github.com/tesseract-ocr/tessdata
其中的chi_sim.traineddata為簡體中文的語言包，將語言包放置到安裝路徑的tessdata目錄下即可。
如果需要使用語言包使用lang=來指定對應的語言包。默認是英文的。

chi_sim.traineddata的識別率不高，如果需要針對性的文字可以使用訓練模型生成適合自己的語言包

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python 使用tesseract進行圖片識別 mac 使用tesseract識別圖片中的中文 Python3使用 pytesseract 進行圖片識別使用Python進行PDF圖片識別OCR Python中利用Tesseract軟件來識別圖片中的英文與中文使用Tesseract-OCR 進行文字識別使用Pytesseract+Tesseract-OCR識別圖片的簡單步驟 java使用開源類庫Tesseract實現圖片識別 golang嘗試圖片識別OCR庫tesseract使用基於Tesseract實現圖片文字識別