pytesseract是google維護的具有學習功能的OCR引擎,3.0以后支持中文識別。
安裝:
1. 安裝tesseract-ocr組件;記得同步下載簡體中文與英文語言包。
2. 安裝PIL,需注意Windows64位版本
3. pip install pytesseract
使用:
image = Image.open("1.jpg") # 打開圖片
image.load() # 加載一下圖片,防止報錯,此處可省略
image.show() # 調用show來展示圖片,調試用,可省略
tessdata_dir_config = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"'
vcode = pytesseract.image_to_string(image, lang='chi_sim', config=tessdata_dir_config)
print vcode