關於用tesseract和tesserocr識別圖片的一個問題

本文轉載自查看原文 2019-04-07 21:12 1380 tesseract/ tesserocr

對於像我這樣初學python網絡爬蟲的freshman來說，軟件的准備和環境的配置能讓我們崩潰。其中用剛安裝好的tesseract和tesserocr庫測試識別驗證碼就是其中一例。

這里我要測試的驗證碼是image.png，保存在C:\Users\LENOVO\Desktop。

1.對於tesseract,我按照書上來輸入一下命令，然后產生錯誤。

覺得不可思議，我完全按照書上來的！

過了一天回頭看才發現是那個‘-1’出了問題，原本應該是‘-l’，即language的簡稱。

改了之后以為能成功了，結果一陣無語，又出現了新錯誤。

后來搗鼓半天才意識到：雖然我已經把Tesseract-OCR目錄添加到path環境變量，能在系統任意位置打開tesseract.exe，但打開圖片需要正確的路徑，於是我做了修改。成功了。

這是結果：

2.對於tesserocr庫，當我直接按照書上敲入命令時：

>>> import tesserocr
>>> from PIL import Image
>>> image = Image.open('image.png')

>>> print(tesserocr.image_to_text(image))

到第三行就會出錯

說是找不到文件。同樣，跟上面一樣，我們需要找到准確地址。下面有兩種解決辦法：

a.第三行命令填上完整讀取地址

然后運行成功。

b.我已經把python安裝地址添到path環境變量，可以直接在運行打開，但此時是在安裝地址打開，直接讀取驗證碼肯定會失敗，所以我改在驗證碼位置打開python3：

然后成功！

所以，像這種東西，不僅需要細心，還要動腦。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Tesseract OCR 圖片文字識別基於Tesseract實現圖片文字識別 Tesseract.js 一個幾乎能識別出圖片中所有語言的JS庫 Tesseract識別圖片提取文字&字庫訓練 tesseract圖片識別庫的簡單操作 Tesseract-OCR-03-圖片文字識別圖片文字OCR識別-tesseract-ocr java 基於Tesseract實現圖片文字識別 python 使用tesseract進行圖片識別開源圖片文字識別引擎——Tesseract OCR