爬蟲-識別圖形驗證碼-tesserocr


引入:

  在學習爬蟲的過程中,需要解決識別圖形驗證碼的這一難題,網上推薦的方法都是通過tesserocr模塊來實現,下面就是安裝步驟以及過程中遇到的問題,記錄一下。

介紹:

tesserocr 是 Python 的一個 OCR 識別庫 ,但其實是對 tesseract 做的一 層 Python API 封裝,所以它的核心是 tesseract。 因此,在安裝 tesserocr 之前,我們需要先安裝 tesseract 。例如:對於下圖的驗證碼,我們可以通過 OCR 技術將其轉換成電子文本,然后爬蟲將識別的結果提交給服務器,便可以達到自動識別驗證碼的過程。

我的環境:

OS:win10

python:3.6.5

相關鏈接

tesserocr GitHub: https://github.com/sirfz/tesserocr

tesserocr PyPI: https://pypi.python.org/pypi/tesserocr

tesseract 下載地址: http://digi.bib.uni-mannheim.de/tesseract

tesseract GitHub: https://github.com/tesseract-ocr/tesseract

tesseract 語言包: http://github.com/tesseract-ocr/tessdata

tesseract 文檔: https://github.com/tesseract-ocr/tesseract/wiki/Documentation

安裝

在 Windows 下,首先需要下載 tesseract,它為 tesserocr 提供了支持。

進入下載頁面,可以看到有各種 .exe 文件的下載列表,這里可以選擇下載 3.0 版本 。 如下圖所示為 3.05 版本 。

 

其中文件名中帶有 dev 的為開發版本,不帶 dev 的為穩定版本,可以選擇下載不帶 dev 的版本, 例如可以選擇下載 tesseract-ocr-setup-3 .05.01.exe。

下載完成后雙擊運行,安裝程序。需要注意的是,需要句選 Additional language data(download)選項來安裝 OCR 識別支持的語言包,這樣 OCR 便可以識別多國語言 

給tesseract配置環境變量:

(1)將tesseract安裝路徑添加到path環境變量中

(2)將tesseract的語言包添加到環境變量中,在環境變量中新建一個系統變量,變量名稱為TESSDATA_PREFIX,tessdata是放置語言包的文件夾,一般在你安裝tesseract的目錄下,tesseract的安裝目錄就是tessdata的父目錄,把TESSDATA_PREFIX的值設置為它即可

接下來 , 再安裝 tesserocr :

pip install tesserocr pillow

pip安裝tesserocr時出錯:

在命令行中輸入:pip3 install tesserocr pillow ,一直出現error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: http://landinghub.visualstudio.com/visual-cpp-build-tools錯誤。

解決辦法:

用.whl文件下載tesserocr庫,就不會出現這個問題,下載地址:

https://github.com/simonflueckiger/tesserocr-windows_build/releases

我下載的是tesserocr-2.4.0-cp36-cp36m-win_amd64.whl,然后在命令行中輸入:

pip install tesserocr-2.4.0-cp36-cp36m-win_amd64.whl

安裝成功,問題解決

 

驗證安裝

測試樣例:

圖片下載:http://images.cnblogs.com/cnblogs_com/Jimc/1316973/o_image.png

(1)用 tesseract 命令測試:

tesseract test.png stdout -l eng 

 運行結果如下:

 (2)利用 Python 代碼測試:

Python 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 17:00:18) [MSC v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import tesserocr
>>> from PIL import Image
>>> image = Image.open(r'C:\Users\Tianl\test.png')
>>> result = tesserocr.image_to_text(image)
>>> print(result)
PythonWebSpider

>>>

另外,還可以直接調用 tesserocr 模塊的 file_to_text() 方法,可以達到同樣的效果:

Python 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 17:00:18) [MSC v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import tesserocr
>>> print(tesserocr.file_to_text(r'C:\Users\Tianl\test.png'))
PythonWebSpider

>>>

如果成功輸出結果,則證明 tesseract 和 tesserocr 都已經安裝成功,以上是安裝以及簡單使用。

 pycharm中安裝導入tesserocr

直接把上面通過pip安裝好的文件夾拷貝到pycharm創建的項目的site-packages目錄中即可使用


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM