關於用tesseract和tesserocr識別圖片的一個問題


對於像我這樣初學python網絡爬蟲的freshman來說,軟件的准備和環境的配置能讓我們崩潰。其中用剛安裝好的tesseract和tesserocr庫測試識別驗證碼就是其中一例。

這里我要測試的驗證碼是image.png,保存在C:\Users\LENOVO\Desktop。

1.對於tesseract,我按照書上來輸入一下命令,然后產生錯誤。

覺得不可思議,我完全按照書上來的!

過了一天回頭看才發現是那個‘-1’出了問題,原本應該是‘-l’,即language的簡稱。

改了之后以為能成功了,結果一陣無語,又出現了新錯誤。

后來搗鼓半天才意識到:雖然我已經把Tesseract-OCR目錄添加到path環境變量,能在系統任意位置打開tesseract.exe,但打開圖片需要正確的路徑,於是我做了修改。成功了。

這是結果:

 

2.對於tesserocr庫,當我直接按照書上敲入命令時:

>>> import tesserocr
>>> from PIL import Image
>>> image = Image.open('image.png')

>>> print(tesserocr.image_to_text(image))

到第三行就會出錯

說是找不到文件。同樣,跟上面一樣,我們需要找到准確地址。下面有兩種解決辦法:

a.第三行命令填上完整讀取地址

然后運行成功。

b.我已經把python安裝地址添到path環境變量,可以直接在運行打開,但此時是在安裝地址打開,直接讀取驗證碼肯定會失敗,所以我改在驗證碼位置打開python3:

然后成功!

所以,像這種東西,不僅需要細心,還要動腦。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM