Python第三方模塊tesserocr安裝

本文轉載自查看原文 2018-10-11 15:55 19020 Python

介紹

在爬蟲過程中，難免會遇到各種各樣的驗證碼，而大多數驗證碼還是圖形驗證碼，這時候我們可以直接用 OCR 來識別。

tesserocr 是 Python 的一個 OCR 識別庫，但其實是對 tesseract 做的一層 Python API 封裝，所以它的核心是 tesseract。因此，在安裝 tesserocr 之前，我們需要先安裝 tesseract 。

例如：對於下圖的驗證碼，我們可以通過 OCR 技術將其轉換成電子文本，然后爬蟲將識別的結果提交給服務器，便可以達到自動識別驗證碼的過程。

Windows下的安裝

在 Windows 下，首先需要下載 tesseract，它為 tesserocr 提供了支持。

進入下載頁面，可以看到有各種 .exe 文件的下載列表，這里可以選擇下載 3.0 版本。如下圖所示為 3.05 版本。

其中文件名中帶有 dev 的為開發版本，不帶 dev 的為穩定版本，可以選擇下載不帶 dev 的版本，例如可以選擇下載 tesseract-ocr-setup-3 .05.01.exe。

下載完成后雙擊運行，安裝程序。需要注意的是，需要句選 Additional language data(download）選項來安裝 OCR 識別支持的語言包，這樣 OCR 便可以識別多國語言。

給tesseract配置環境變量：

（1）將tesseract安裝路徑添加到path環境變量中

（2）將tesseract的語言包添加到環境變量中，在環境變量中新建一個系統變量，變量名稱為TESSDATA_PREFIX，tessdata是放置語言包的文件夾，一般在你安裝tesseract的目錄下，即tesseract的安裝目錄就是tessdata的父目錄，把TESSDATA_PREFIX的值設置為它即可

接下來，再安裝 tesserocr 即可：

pip install tesserocr pillow

如果通過 pip 安裝失敗，可以嘗試 Anaconda 下的 conda 來安裝：

conda install -c simonflueckiger tesserocr pillow

驗證安裝

測試樣例：

圖片下載：http://images.cnblogs.com/cnblogs_com/Jimc/1316973/o_image.png

（1）用 tesseract 命令測試：

tesseract image.png result -l eng

運行結果如下：

Tesseract Open Source OCR Engine v3.05.01 with Leptonica

（2）利用 Python 代碼測試：

import tesserocr
from PIL import Image

image = Image.open('image.png')
result = tesserocr.image_to_text(image)
print(result)

運行結果如下：

PythonWebSpider

另外，還可以直接調用 tesserocr 模塊的 file_to_text() 方法，可以達到同樣的效果：

import tesserocr

print(tesserocr.file_to_text('image.png'))

運行結果如下：

PythonWebSpider

如果成功輸出結果，則證明 tesseract 和 tesserocr 都已經安裝成功。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 安裝python第三方模塊 python安裝第三方模塊如何在cmd中安裝python第三方模塊 Python第三方模塊安裝的幾種方式 Windows下Python3.6安裝第三方模塊 python 使用pip安裝第三方模塊 Python pycharm 安裝第三方庫 (模塊）的方法 nginx dockerfile安裝第三方模塊 nginx第三方模塊安裝方法安裝第三方模塊方法和requests