對於像我這樣初學python網絡爬蟲的freshman來說,軟件的准備和環境的配置能讓我們崩潰。其中用剛安裝好的tesseract和tesserocr庫測試識別驗證碼就是其中一例。
這里我要測試的驗證碼是image.png,保存在C:\Users\LENOVO\Desktop。
1.對於tesseract,我按照書上來輸入一下命令,然后產生錯誤。
覺得不可思議,我完全按照書上來的!
過了一天回頭看才發現是那個‘-1’出了問題,原本應該是‘-l’,即language的簡稱。
改了之后以為能成功了,結果一陣無語,又出現了新錯誤。
后來搗鼓半天才意識到:雖然我已經把Tesseract-OCR目錄添加到path環境變量,能在系統任意位置打開tesseract.exe,但打開圖片需要正確的路徑,於是我做了修改。成功了。
這是結果:
2.對於tesserocr庫,當我直接按照書上敲入命令時:
>>> import tesserocr
>>> from PIL import Image
>>> image = Image.open('image.png')
>>> print(tesserocr.image_to_text(image))
到第三行就會出錯
說是找不到文件。同樣,跟上面一樣,我們需要找到准確地址。下面有兩種解決辦法:
a.第三行命令填上完整讀取地址
然后運行成功。
b.我已經把python安裝地址添到path環境變量,可以直接在運行打開,但此時是在安裝地址打開,直接讀取驗證碼肯定會失敗,所以我改在驗證碼位置打開python3:
然后成功!
所以,像這種東西,不僅需要細心,還要動腦。