使用python+selenium做驗證碼識別


基本步驟:

截取定位驗證碼-》使用imagecrop函數,再次截取需要的區域-》保存截下來的區域進行打碼time-》圖像加強,二值化-》增強對比度-》輸出驗證碼

 

通過PIL+pytesseract+Tesseract-OCR實現驗證碼的識別

PILPython Imaging Library。(PIL第三方庫安裝:pip install PIL)。Image類是PIL庫中一個非常重要的類,通過這個類來創建實例可以有直接載入圖像文件,讀取處理過的圖像和通過抓取的方法得到的圖像。

Tesseract:開源的OCR識別引擎。並不能直接在python中使用,需要使用python的封裝類pytesseract

Python-tesseract是光學字符識別Tesseract OCR引擎的Python封裝類。能夠讀取任何常規的圖片文件(JPG, GIF ,PNG , TIFF等)並解碼成可讀的語言。

 

識別步驟如下:

1、安裝PIL 下載.exe文件執行安裝 

2、安裝Tesseract (下載.exe文件執行安裝) 

3、安裝pytesseract (通過pip installpytesseract安裝)

注意:C:\Python27\Lib\site-packages\pytesseract\pytesseract.py文件中,Tesseract_cmd文件路徑,需改成安裝路徑,否則運行時會報Tesseract路徑問題。如下:

 

識別成功驗證碼

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM