Python處理驗證碼:基於PIL和Tesseract的數字計算識別處理思路


 

如圖,我們在使用python自動化的時候經常會遇到很多各式各樣的驗證碼。這個是一個數字加法的驗證碼。
干擾項里包含完整的數字、字母信息,普通的OCR識別可能不是很准確。
但是不管怎么樣,咱們先把必要的環境搭建起來,試一下Tesseract的識別結果吧。

很多人學習python,不知道從何學起。
很多人學習python,掌握了基本語法過后,不知道在哪里尋找案例上手。
很多已經做案例的人,卻不知道如何去學習更加高深的知識。
那么針對這三類人,我給大家提供一個好的學習平台,免費領取視頻教程,電子書籍,以及課程的源代碼!
QQ群:701698587
歡迎加入,一起討論 一起學習!

 

 

  • 1、安裝Tesseract:

首先需要下載Tesseract的安裝包 官方網址:
https://digi.bib.uni-mannheim.de/tesseract/,網上的教程很多推薦安裝名稱里不帶dev的正式版,據說更穩定

  • 配置Tesseract:

安裝完畢之后需要配置一下環境變量,分為兩步:
1、在path里加入安裝路徑,及安裝路徑內的tessdata文件夾路徑。

 

2、新建系統變量{TESSDATA_PREFIX:E:\Program Files (x86)\Tesseract-OCR\tessdata} 這里變量名是固定的TESSDATA_PREFIX,值是剛剛提到的安裝路徑內下一級tessdata文件夾的完整路徑

 

 

然后命令行里 安裝pytesseract:

pip install pytesseract

完成以上步驟之后,請重新啟動電腦。

  • 圖片無法處理識別:

直接調用ocr識別出結果的話,只需要3行代碼:

import pytesseract text = pytesseract.image_to_string('圖片路徑或者內存的圖片對象') print(text)

但是對於這個驗證碼的效果不是非常好,比如:

 

 

 

要么是沒有結果,要么就是一堆亂七八糟的東西。
這樣肯定是用不了的
那么只能先處理一下圖片了

  • 圖片處理識別:


我下載了20張這個網站的二維碼,發現了以下規律:
1、驗證碼內容一定包含“ = 2位數字+2位數字”的
2、驗證碼內容的顏色是隨機的。
3、驗證碼內容的位置應該是固定的(20張圖片的加號都在同一位置)
4、驗證碼圖片的干擾內容包含字母、數字、符號
5、驗證碼圖片的干擾內容顏色沒有跟主要內容一模一樣,但是每張圖的干擾項一定包含主要內容顏色相近的部分。

 

可以看到,根據字體的不同,顯示的時候,主干是棕色的,但是構成這個字的邊緣顏色是稍微淡一些的。不過20張圖里都沒有發現有干擾項的顏色跟主要內容顏色一模一樣。
所以我的想法是因為存在主干的近似色,所以主要的濾波手段可能導致把圖片變得更難處理的可能性,所以不如直接獲取主干顏色,其他像素不是主干顏色的全部以白色替代,刪除干擾項之后再進行識別。
主干顏色可以使用固定的加號的正中間那一點的坐標獲取。(80,23)(80,24)

 

Python代碼如下:

# -*- coding: utf-8 -*- """ Created on Wed Apr 14 16:23:47 2021 @author: roshinntou """ from PIL import Image import pytesseract def images_to_string(index): #導入圖片,抓取的時候可以直接獲取io流 img1= Image.open('index ('+str(index)+').png') #獲取圖片的長寬 w,h = img1.size print('Original image size: %sx%s' % (w, h)) ''' 因為是PNG圖片,像素不是直接以RGB保存的,PNG的每個像素里還有透明度 我們不需要處理透明度,tesseract對於白色和不透明的識別是一樣的,這里就轉成RGB 如果圖片是jpg的,可以直接使用,不需要 convert ''' img1rbg = img1.convert('RGB') #讀取全部的像素數據 src_strlist = img1rbg.load() #獲取主干顏色 data = src_strlist[80,23] print(data) #雙層循環開始替換全部的像素點顏色 for x in range(0,w): for y in range(0,h): #判斷當前點顏色是否等於主干顏色 co = src_strlist[x,y] if co !=data: src_strlist[x,y] = (245, 245, 255) #直接調用內存里的PIL image對象進行圖片識別 text = pytesseract.image_to_string(img1rbg) text = text.replace(" ","").replace("\r\n","").replace(" ","").replace("\r","").replace("\n","") #打印結果 print(text) #保存圖片 img1rbg.save(text+'.png') if __name__ == '__main__': for i in range(1,21): images_to_string(i) 

 

文件如下:

 

結語:
准確率我大概看了一下,應該是100%的。以上算是成功破解了對方網站的驗證碼。
驗證碼的識別整體思路應該就是這樣子了,當然我舉得例子是比較簡單的驗證碼。還有各種麻煩的驗證碼,未來可能需要用到截取、卷積、濾波、清洗等等方法,需要根據實際的情況靈活地使用,但是整體的思路就是:
找到驗證碼規律,根據規律清洗干擾噪點,然后識別。希望可以啟發到大家。
最后的最后,現在已經可以獲取驗證碼的字符串了,計算結果非常簡單我就不做了。有興趣的可以試試,我會把所有圖片、源代碼打包,大家可以下載試一下。
Tesseract安裝的時候,系統變量哪里2步都不能少,少一個程序執行就會報錯,切記


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM