Tesseract的簡單使用

本文轉載自查看原文 2019-03-01 17:46 790 21天搞定Python分布爬蟲

tesseract下載地址：https://digi.bib.uni-mannheim.de/tesseract/

添加中文的識別庫：

https://github.com/tesseract-ocr/tessdata/find/master

這個網址中下載chi_sim.traineddata，下載后放到Tesseract-OCR\tessdata文件夾內。

設置環境變量：

安裝完成后在Windows下把tesseract.exe所在的路徑添加到PATH環境變量中。

另外一個環境變量我自己電腦中是沒有添加，也可以正常運行程序。做個參考：

**********************************************************************************************************

在使用tesseract命令行進行測試時，報以下的錯誤

Error opening data file \Program Files (x86)\Tesseract-OCR\tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.

報錯是意思是缺少環境變量TESSDATA_PREFIX，導致無法加載任何語言，就不能初始化tesseract。

解決的方法也很簡單，在環境變量中，添加一個變量名為TESSDATA_PREFIX,變量值為teseractdata目錄地址。

**************************************************************************************************************************

在命令行中使用tesseract識別圖像：

如果想要在cmd下能夠使用tesseract命令，那么需要把tesseract.exe所在的目錄放到PATH環境變量中。然后使用命令：tesseract 圖片路徑文件路徑。
示例：

tesseract a.png a

那么就會識別出a.png中的圖片，並且把文字寫入到a.txt中。

如果識別中文的，需要添加個參數：

tesseract a.png a -l eng 默認的是eng，中文的就改成chi_sim。

關於快速的在當前文件夾內打開cmd的方法，是按住shift鍵，然后右鍵，就可以有“在此處打開命令行窗口”的選項，並且直接定位到當前文件夾內。

在代碼中使用tesseract識別圖像：

pip install pytesseract安裝

使用代碼：

from PIL import Image
import pytesseract

text = pytesseract.image_to_string(Image.open('captcha.png') , lang='chi_sim')
print(text)

從網頁中下載圖片的簡單代碼：

from urllib import request

img_url = 'https://u.baidu.com/ucweb/?module=Reguser&controller=reg&action=image&appid=12&_=1551428462677'
request.urlretrieve(img_url, 'captcha.png')

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 tesseract的簡單使用 Tesseract-OCR的簡單使用與訓練 mac 安裝tesseract、pytesseract以及簡單使用 Tesseract-OCR的簡單使用與訓練使用Pytesseract+Tesseract-OCR識別圖片的簡單步驟驗證碼識別 Tesseract的簡單使用和總結百度 OCR API 的使用以及與 Tesseract 的簡單對比通過Tesseract實現簡單的OCR 關於Tesseract的簡單訓練方法 tesseract 編譯與使用（windows）