本文主要是通過PIL+pytesseract+Tesseract-OCR實現驗證碼的識別
其中PIL為Python Imaging Library,已經是Python平台事實上的圖像處理標准庫了。PIL功能非常強大,但API卻非常簡單易用。
PIL第三方庫安裝 pip install PIL
Image 類是 PIL 庫中一個非常重要的類,通過這個類來創建實例可以有直接載入圖像文件,讀取處理過的圖像和通過抓取的方法得到的圖像這三種方法。
常見的圖像操作:
import Image # 打開一個jpg圖像文件
im = Image.open('/Users/michael/test.jpg')
# 獲得圖像尺寸: w, h = im.size
# 把縮放后的圖像用jpeg格式保存: im.save('/Users/michael/thumbnail.jpg', 'jpeg')
圖像的增強(PIL庫ImageEnhance類詳解)
python中PIL模塊中有一個叫做ImageEnhance的類,該類專門用於圖像的增強處理,不僅可以增強(或減弱)圖像的亮度、對比度、色度,還可以用於增強圖像的銳度。
具體見下面的例子:
- #-*- coding: UTF-8 -*-
- from PIL import Image
- from PIL import ImageEnhance
- #原始圖像
- image = Image.open('lena.jpg')
- image.show()
- #亮度增強
- enh_bri = ImageEnhance.Brightness(image)
- brightness = 1.5
- image_brightened = enh_bri.enhance(brightness)
- image_brightened.show()
- #色度增強
- enh_col = ImageEnhance.Color(image)
- color = 1.5
- image_colored = enh_col.enhance(color)
- image_colored.show()
- #對比度增強
- enh_con = ImageEnhance.Contrast(image)
- contrast = 1.5
- image_contrasted = enh_con.enhance(contrast)
- image_contrasted.show()
- #銳度增強
- enh_sha = ImageEnhance.Sharpness(image)
- sharpness = 3.0
- image_sharped = enh_sha.enhance(sharpness)
- image_sharped.show()
圖片增強能夠更好的識別較為復雜的驗證碼
Tesseract:開源的OCR識別引擎,初期Tesseract引擎由HP實驗室研發,后來貢獻給了開源軟件業,后經由Google進行改進,消除bug,優化,重新發布。當前版本為3.02
Tesseract-OCR下載地址 :http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe
下載完后進行安裝,默認情況下安裝程序會給你配置系統環境變量,以指向安裝目錄(之后可以通過DOS界面在任意目錄運行tesseract)。安裝完成后目錄如下:
附錄:
tessdata 目錄存放的是語言字庫文件,和在命令行界面中可能用到的參數所對應的文件. 這個安裝程序默認包含了英文字庫。
如果想能識別中文,可以到http://code.google.com/p/tesseract-ocr/downloads/list下載對應的語言的字庫文件.一般google訪問不了,請到這里下載即可,
簡體中文字庫文件下載地址為:http://download.csdn.net/detail/wanghui2008123/7621567下載完成后解壓,然后將該文件剪切到tessdata目錄下去就可以了。
詳解可參見:http://www.cnblogs.com/wzben/p/5930538.html
Tesseract並不能直接在python中使用,需要使用python的封裝類pytesseract
Python-tesseract 是光學字符識別Tesseract OCR引擎的Python封裝類。能夠讀取任何常規的圖片文件(JPG, GIF ,PNG , TIFF等)並解碼成可讀的語言。在OCR處理期間不會創建任何臨文件
總結起來識別的步驟如下:
1. 安裝PIL 2. 安裝Tesseract 3.安裝pytesseract
下面以實例說話吧!
# coding:utf-8 from selenium import webdriver from time import sleep import unittest from PIL import Image from PIL import ImageEnhance import pytesseract driver=webdriver.Firefox() url="https://passport.baidu.com/?getpassindex" driver.get(url) driver.maximize_window() driver.save_screenshot(r"E:\aa.png") #截取當前網頁,該網頁有我們需要的驗證碼 imgelement = driver.find_element_by_xpath(".//*[@id='forgotsel']/div/div[3]/img") #imgelement = driver.find_element_by_id("code") #定位驗證碼 location = imgelement.location #獲取驗證碼x,y軸坐標 size=imgelement.size #獲取驗證碼的長寬 coderange=(int(location['x']),int(location['y']),int(location['x']+size['width']), int(location['y']+size['height'])) #寫成我們需要截取的位置坐標 i=Image.open(r"E:\aa.png") #打開截圖 frame4=i.crop(coderange) #使用Image的crop函數,從截圖中再次截取我們需要的區域 frame4.save(r"E:\frame4.png") i2=Image.open(r"E:\frame4.png") imgry = i2.convert('L') #圖像加強,二值化,PIL中有九種不同模式。分別為1,L,P,RGB,RGBA,CMYK,YCbCr,I,F。L為灰度圖像 sharpness =ImageEnhance.Contrast(imgry)#對比度增強 i3 = sharpness.enhance(3.0) #3.0為圖像的飽和度 i3.save("E:\\image_code.png") i4=Image.open("E:\\image_code.png") text=pytesseract.image_to_string(i2).strip() #使用image_to_string識別驗證碼 print text