基本步驟:
截取定位驗證碼-》使用image的crop函數,再次截取需要的區域-》保存截下來的區域進行打碼time-》圖像加強,二值化-》增強對比度-》輸出驗證碼
通過PIL+pytesseract+Tesseract-OCR實現驗證碼的識別
PIL為Python Imaging Library。(PIL第三方庫安裝:pip install PIL)。Image類是PIL庫中一個非常重要的類,通過這個類來創建實例可以有直接載入圖像文件,讀取處理過的圖像和通過抓取的方法得到的圖像。
Tesseract:開源的OCR識別引擎。並不能直接在python中使用,需要使用python的封裝類pytesseract。
Python-tesseract是光學字符識別Tesseract OCR引擎的Python封裝類。能夠讀取任何常規的圖片文件(JPG, GIF ,PNG , TIFF等)並解碼成可讀的語言。
識別步驟如下:
1、安裝PIL (下載.exe文件執行安裝)
2、安裝Tesseract (下載.exe文件執行安裝)
3、安裝pytesseract (通過pip installpytesseract安裝)
注意:C:\Python27\Lib\site-packages\pytesseract\pytesseract.py文件中,Tesseract_cmd文件路徑,需改成安裝路徑,否則運行時會報Tesseract路徑問題。如下:
識別成功驗證碼