selenium識別登錄驗證碼---基於python實現


本文主要是通過PIL+pytesseract+Tesseract-OCR實現驗證碼的識別

其中PIL為Python Imaging Library,已經是Python平台事實上的圖像處理標准庫了。PIL功能非常強大,但API卻非常簡單易用。

PIL第三方庫安裝 pip install PIL

Image 類是 PIL 庫中一個非常重要的類,通過這個類來創建實例可以有直接載入圖像文件,讀取處理過的圖像和通過抓取的方法得到的圖像這三種方法。

常見的圖像操作:

import Image # 打開一個jpg圖像文件

im = Image.open('/Users/michael/test.jpg')

# 獲得圖像尺寸: w, h = im.size 

# 把縮放后的圖像用jpeg格式保存: im.save('/Users/michael/thumbnail.jpg', 'jpeg')

圖像的增強(PIL庫ImageEnhance類詳解)

python中PIL模塊中有一個叫做ImageEnhance的類,該類專門用於圖像的增強處理,不僅可以增強(或減弱)圖像的亮度、對比度、色度,還可以用於增強圖像的銳度。

 

具體見下面的例子:

 

[python]
  1. #-*- coding: UTF-8 -*-     
  2. from PIL import Image  
  3. from PIL import ImageEnhance  
  4. #原始圖像  
  5. image = Image.open('lena.jpg')  
  6. image.show()  
  7. #亮度增強  
  8. enh_bri = ImageEnhance.Brightness(image)  
  9. brightness = 1.5  
  10. image_brightened = enh_bri.enhance(brightness)  
  11. image_brightened.show()  
  12. #色度增強  
  13. enh_col = ImageEnhance.Color(image)  
  14. color = 1.5  
  15. image_colored = enh_col.enhance(color)  
  16. image_colored.show()  
  17. #對比度增強  
  18. enh_con = ImageEnhance.Contrast(image)  
  19. contrast = 1.5  
  20. image_contrasted = enh_con.enhance(contrast)  
  21. image_contrasted.show()  
  22. #銳度增強  
  23. enh_sha = ImageEnhance.Sharpness(image)  
  24. sharpness = 3.0  
  25. image_sharped = enh_sha.enhance(sharpness)  
  26. image_sharped.show()  

     圖片增強能夠更好的識別較為復雜的驗證碼

Tesseract:開源的OCR識別引擎,初期Tesseract引擎由HP實驗室研發,后來貢獻給了開源軟件業,后經由Google進行改進,消除bug,優化,重新發布。當前版本為3.02

Tesseract-OCR下載地址 :http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe

下載完后進行安裝,默認情況下安裝程序會給你配置系統環境變量,以指向安裝目錄(之后可以通過DOS界面在任意目錄運行tesseract)。安裝完成后目錄如下:


 

附錄:

tessdata 目錄存放的是語言字庫文件,和在命令行界面中可能用到的參數所對應的文件. 這個安裝程序默認包含了英文字庫。

如果想能識別中文,可以到http://code.google.com/p/tesseract-ocr/downloads/list下載對應的語言的字庫文件.一般google訪問不了,請到這里下載即可,

簡體中文字庫文件下載地址為:http://download.csdn.net/detail/wanghui2008123/7621567下載完成后解壓,然后將該文件剪切到tessdata目錄下去就可以了。

詳解可參見:http://www.cnblogs.com/wzben/p/5930538.html

Tesseract並不能直接在python中使用,需要使用python的封裝類pytesseract

Python-tesseract 是光學字符識別Tesseract OCR引擎的Python封裝類。能夠讀取任何常規的圖片文件(JPG, GIF ,PNG , TIFF等)並解碼成可讀的語言。在OCR處理期間不會創建任何臨文件

總結起來識別的步驟如下:

1. 安裝PIL  2. 安裝Tesseract  3.安裝pytesseract

下面以實例說話吧!

# coding:utf-8
from selenium import webdriver
from time import sleep
import unittest
from PIL import Image
from PIL import ImageEnhance
import pytesseract
driver=webdriver.Firefox()
url="https://passport.baidu.com/?getpassindex"
driver.get(url)
driver.maximize_window()
driver.save_screenshot(r"E:\aa.png")  #截取當前網頁,該網頁有我們需要的驗證碼
imgelement = driver.find_element_by_xpath(".//*[@id='forgotsel']/div/div[3]/img")
#imgelement = driver.find_element_by_id("code")  #定位驗證碼
location = imgelement.location  #獲取驗證碼x,y軸坐標
size=imgelement.size  #獲取驗證碼的長寬
coderange=(int(location['x']),int(location['y']),int(location['x']+size['width']),
           int(location['y']+size['height'])) #寫成我們需要截取的位置坐標
i=Image.open(r"E:\aa.png") #打開截圖
frame4=i.crop(coderange)  #使用Image的crop函數,從截圖中再次截取我們需要的區域
frame4.save(r"E:\frame4.png")
i2=Image.open(r"E:\frame4.png")
imgry = i2.convert('L')   #圖像加強,二值化,PIL中有九種不同模式。分別為1,L,P,RGB,RGBA,CMYK,YCbCr,I,F。L為灰度圖像
sharpness =ImageEnhance.Contrast(imgry)#對比度增強
i3 = sharpness.enhance(3.0)  #3.0為圖像的飽和度
i3.save("E:\\image_code.png")
i4=Image.open("E:\\image_code.png")
text=pytesseract.image_to_string(i2).strip() #使用image_to_string識別驗證碼
print text

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM