今天介紹一個簡單驗證的識別。
主要是標准的格式,沒有扭曲和變現。就用 pytesseract 去識別一下。
驗證碼地址:https://user.www.gov.cn/sso/verifyimg_edit?rd=0.22469390770687414
需要識別的驗證碼是:
識別結果是:
識別代碼是:
#coding:utf-8 from common.contest import * from PIL import Image import pytesseract def recognize_captcha(img_path): im = Image.open(img_path) tessdata_dir_config = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"' num = pytesseract.image_to_string(im,config=tessdata_dir_config) return num if __name__ == '__main__': for i in range(1, 15): img_path = "3/" + str(i) + ".jpg" res = recognize_captcha(img_path) strs = res.split("\n") print strs[0]