1.安裝pip install pytesseract
2.安裝tesseract-ocr,下載地址:https://github.com/UB-Mannheim/tesseract/wiki,我安裝的版本tesseract-ocr-setup-3.05.01.exe,安裝的時候選擇把chi_sim(中文簡體)和chi_tra(中文繁體)數據庫安裝上
3.設置環境變量
4.vcode=pytesseract.image_to_string(im_text, lang='chi_sim')會出錯:pytesseract FileNotFoundError: [WinError 2] 系統找不到指定的文件。
解決方法:pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'
其中 r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'是tesseract-ocr安裝路徑
5.
pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Tesseract-OCR\\tessdata/eng.traineddata')
解決方法:
方法1[推薦]:
將tessdata目錄的上級目錄所在路徑(默認為tesseract-ocr安裝目錄)添加至TESSDATA_PREFIX環境變量中
例如: C:\Program Files (x86)\Tesseract-OCR
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
方法2: 在.py文件配置中指定tessdata-dir
tessdata_dir_config = '--tessdata-dir "D:\\Tesseract-OCR\\tessdata"' # tessdata_dir_config = '--tessdata-dir "'C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"' pytesseract.image_to_string(image, config=tessdata_dir_config)
設置完環境變量重啟pycharm