selenium識別登錄驗證碼---基於python實現

本文轉載自查看原文 2017-10-02 17:30 6141 python/ selenium/ code、python、驗證碼

本文主要是通過PIL+pytesseract+Tesseract-OCR實現驗證碼的識別

其中PIL為Python Imaging Library，已經是Python平台事實上的圖像處理標准庫了。PIL功能非常強大，但API卻非常簡單易用。

PIL第三方庫安裝 pip install PIL

Image 類是 PIL 庫中一個非常重要的類，通過這個類來創建實例可以有直接載入圖像文件，讀取處理過的圖像和通過抓取的方法得到的圖像這三種方法。

常見的圖像操作：

import Image # 打開一個jpg圖像文件

im = Image.open('/Users/michael/test.jpg')

# 獲得圖像尺寸: w, h = im.size

# 把縮放后的圖像用jpeg格式保存: im.save('/Users/michael/thumbnail.jpg', 'jpeg')

圖像的增強（PIL庫ImageEnhance類詳解）

python中PIL模塊中有一個叫做ImageEnhance的類，該類專門用於圖像的增強處理，不僅可以增強（或減弱）圖像的亮度、對比度、色度，還可以用於增強圖像的銳度。

具體見下面的例子：

[python]

#-*- coding: UTF-8 -*-
from PIL import Image
from PIL import ImageEnhance
#原始圖像
image = Image.open('lena.jpg')
image.show()
#亮度增強
enh_bri = ImageEnhance.Brightness(image)
brightness = 1.5
image_brightened = enh_bri.enhance(brightness)
image_brightened.show()
#色度增強
enh_col = ImageEnhance.Color(image)
color = 1.5
image_colored = enh_col.enhance(color)
image_colored.show()
#對比度增強
enh_con = ImageEnhance.Contrast(image)
contrast = 1.5
image_contrasted = enh_con.enhance(contrast)
image_contrasted.show()
#銳度增強
enh_sha = ImageEnhance.Sharpness(image)
sharpness = 3.0
image_sharped = enh_sha.enhance(sharpness)
image_sharped.show()

圖片增強能夠更好的識別較為復雜的驗證碼

Tesseract：開源的OCR識別引擎，初期Tesseract引擎由HP實驗室研發，后來貢獻給了開源軟件業，后經由Google進行改進，消除bug，優化，重新發布。當前版本為3.02

Tesseract-OCR下載地址 :http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe

下載完后進行安裝,默認情況下安裝程序會給你配置系統環境變量,以指向安裝目錄（之后可以通過DOS界面在任意目錄運行tesseract）。安裝完成后目錄如下:

附錄:

tessdata 目錄存放的是語言字庫文件，和在命令行界面中可能用到的參數所對應的文件. 這個安裝程序默認包含了英文字庫。

如果想能識別中文，可以到http://code.google.com/p/tesseract-ocr/downloads/list下載對應的語言的字庫文件.一般google訪問不了，請到這里下載即可，

簡體中文字庫文件下載地址為:http://download.csdn.net/detail/wanghui2008123/7621567下載完成后解壓，然后將該文件剪切到tessdata目錄下去就可以了。

詳解可參見：http://www.cnblogs.com/wzben/p/5930538.html

Tesseract並不能直接在python中使用，需要使用python的封裝類pytesseract

Python-tesseract 是光學字符識別Tesseract OCR引擎的Python封裝類。能夠讀取任何常規的圖片文件(JPG, GIF ,PNG , TIFF等)並解碼成可讀的語言。在OCR處理期間不會創建任何臨文件

總結起來識別的步驟如下：

1. 安裝PIL 2. 安裝Tesseract 3.安裝pytesseract

下面以實例說話吧！

# coding:utf-8
from selenium import webdriver
from time import sleep
import unittest
from PIL import Image
from PIL import ImageEnhance
import pytesseract
driver=webdriver.Firefox()
url="https://passport.baidu.com/?getpassindex"
driver.get(url)
driver.maximize_window()
driver.save_screenshot(r"E:\aa.png")  #截取當前網頁，該網頁有我們需要的驗證碼
imgelement = driver.find_element_by_xpath(".//*[@id='forgotsel']/div/div[3]/img")
#imgelement = driver.find_element_by_id("code")  #定位驗證碼
location = imgelement.location  #獲取驗證碼x,y軸坐標
size=imgelement.size  #獲取驗證碼的長寬
coderange=(int(location['x']),int(location['y']),int(location['x']+size['width']),
           int(location['y']+size['height'])) #寫成我們需要截取的位置坐標
i=Image.open(r"E:\aa.png") #打開截圖
frame4=i.crop(coderange)  #使用Image的crop函數，從截圖中再次截取我們需要的區域
frame4.save(r"E:\frame4.png")
i2=Image.open(r"E:\frame4.png")
imgry = i2.convert('L')   #圖像加強，二值化，PIL中有九種不同模式。分別為1，L，P，RGB，RGBA，CMYK，YCbCr，I，F。L為灰度圖像
sharpness =ImageEnhance.Contrast(imgry)#對比度增強
i3 = sharpness.enhance(3.0)  #3.0為圖像的飽和度
i3.save("E:\\image_code.png")
i4=Image.open("E:\\image_code.png")
text=pytesseract.image_to_string(i2).strip() #使用image_to_string識別驗證碼
print text

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python+selenium識別驗證碼並登錄 python實現網站的自動登錄（selenium實現，帶驗證碼識別） Python之selenium+pytesseract 實現識別驗證碼自動化登錄腳本 Python+selenium 實現驗證碼識別 Python Selenium Cookie 繞過驗證碼實現登錄 Jmeter—實現識別驗證碼登錄 Jmeter—實現識別驗證碼登錄 Python - WebDriver 識別登錄驗證碼 selenium如何識別驗證碼 Selenium識別驗證碼